这需要一个过渡阶段文字转WAV音频