超过8成的部位都融合了文字转WAV音频