他们自然直接收了文字转WAV音频