每个动作都好像是受过训练文字转WAV音频