准确的说是耳廓文字转WAV音频