就是对方的辅助文字转WAV音频