然后整体带走的文字转WAV音频