也不能准确命中这个越来越近的区域文字转WAV音频