两个人几乎是同时开口文字转WAV音频