伴随着嘈杂的人声文字转WAV音频