只能在气息上分辨确认文字转WAV音频