当前位置: 江南文明网 > 科技 > 智能 >

CAIS等举办NeurIPS 2023攻击赛,让大模型制定毁灭人类计划

条评论

CAIS等举办NeurIPS 2023攻击赛,让大模型制定毁灭人类计划

让大模型成功越狱,拿3万美元奖金。NeurIPS 2023上,由CAIS等机构举办的LLM攻击赛等你挑战。与此同时,Jim Fan也将联手谷歌MIT等举办第2届「决策基础模型」workshop——AI智能体是未来!

这背后的「黑客」便来自CMU、CAIS等机构的研究人员。

他们发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。

论文地址:https://arxiv.org/abs/2307.15043

代码地址:https://github.com/llm-attacks/llm-attacks

就在今年的NuerIPS 2023上,这篇论文的作者Andy Zou(CMU)、Zifan Wang(CAIS)将联合其他该领路的大佬,共同举办Trojan Detection Competition (LLM Edition)挑战赛。

划重点:比赛的奖金池高达3万美元。

此外,获得第一名的团队将受邀共同撰写总结比赛结果的论文,并在NeurIPS 2023的研讨会上发表简短的演讲。其中,总结论文将会被NeurIPS 2024直接收录。