他们要做的只是在一定程度上的让步文字转WAV音频