所以他会模仿语调甚至动作文字转WAV音频