所以这确实是他们最后的选择文字转WAV音频