其次才是抓捕文字转WAV音频