综合这两人对话信息文字转WAV音频