而是让他一个人在那里说文字转WAV音频