所以双方还是有一定的感应文字转WAV音频