他们其实根本看不到具体过程文字转WAV音频