但是整个过程和对话文字转WAV音频