这是一个非常复杂的阶段文字转WAV音频