根据双方的表现文字转WAV音频