从而获得一个稳定的根据地文字转WAV音频