而且他也是知道目标的位置文字转WAV音频