双方最终确定为文字转WAV音频