这样的前提是他们的推测正确文字转WAV音频