但人无法直接感知文字转WAV音频