是随着层数递减的文字转WAV音频