根本不会给他足够多的时间去考虑文字转WAV音频