他们自己甚至于都可以预见文字转WAV音频