自然是立即捕捉到的文字转WAV音频