他们真正的目标也许是文字转WAV音频