只能得到一个模糊的位置文字转WAV音频