尽管双方使用的大部分都是文字转WAV音频