主要是采用了一种特殊的三维转二维形态来构筑文字转WAV音频