毕竟他们选出的文字转WAV音频