我们其实无法准确将其定性文字转WAV音频