开始了开拍前的前置训练文字转WAV音频