而且此时从两个人的动作来看文字转WAV音频