然后传递给观众文字转WAV音频