一个人体模型根据这2d的画面被重建了出来文字转WAV音频