他完全按照训练模式操控文字转WAV音频