仍然保持着之前的神态和动作文字转WAV音频