所以必要的训练还是要有的文字转WAV音频