是已经无法用数值去量化的文字转WAV音频