依然从他们的口型中推断出了大致的内容文字转WAV音频