他用语言模拟了一下那种特定的情况文字转WAV音频