极有可能是通过第三方定位来判断目标位置文字转WAV音频