并按照使用者瞳孔的位置文字转WAV音频