所以他才能在众多的杂质中找到最合适的位置文字转WAV音频