同样适用了模型加动作捕捉的方式进行拍摄文字转WAV音频