然后他们他们负责抓捕文字转WAV音频