完全可以推衍出他们之后的手法文字转WAV音频