我们无法精确锁定坐标文字转WAV音频