很难做到像是撕扯纸张那样精确的定位文字转WAV音频