此时训练的就是几个阵法的简单应用文字转WAV音频