他们本来应该互相依靠文字转WAV音频