他们的目标是把离带走文字转WAV音频