他们通过好几组数据的对比文字转WAV音频