从他们的动作和眼神去观察文字转WAV音频