显然是增加了一层屏障文字转WAV音频