他们的数据是上升的文字转WAV音频