但是从他们的动作和态度上面文字转WAV音频