整个人的动作也是一缓文字转WAV音频