在准确的时间点上呈现出最为准确的情绪和动作文字转WAV音频