都无法准确的捕捉到他们的位置文字转WAV音频