他们可能是要加快推动文字转WAV音频