而且基本上到场的人文字转WAV音频