所以他们选择了最笨的方法文字转WAV音频