他自然是依据事实讲述文字转WAV音频