敌人会根据表象自动脑补成文字转WAV音频