看起来他并没有经过严格的教导文字转WAV音频