理论界有些模型实际上是将问题简单化了文字转WAV音频