在这个过程的前几秒文字转WAV音频