对话肯定会辨认出他们来文字转WAV音频