它是根据我们对一些基础理论的理解为框架进行的模拟文字转WAV音频