显然从四个人的表现来看文字转WAV音频