总之说是会在训练过程中考核文字转WAV音频