分别在不同的区域进行抓捕文字转WAV音频