让大模型成功越狱,拿3万美元奖金。NeurIPS 2023上,由CAIS等机构举办的LLM攻击赛等你挑战。与此同时,Jim Fan也将联手谷歌MIT等举办第2届「决策基础模型」workshop——AI智能体是未来!
这背后的「黑客」便来自CMU、CAIS等机构的研究人员。
他们发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。
论文地址:https://arxiv.org/abs/2307.15043
代码地址:https://github.com/llm-attacks/llm-attacks
就在今年的NuerIPS 2023上,这篇论文的作者Andy Zou(CMU)、Zifan Wang(CAIS)将联合其他该领路的大佬,共同举办Trojan Detection Competition (LLM Edition)挑战赛。
划重点:比赛的奖金池高达3万美元。
此外,获得第一名的团队将受邀共同撰写总结比赛结果的论文,并在NeurIPS 2023的研讨会上发表简短的演讲。其中,总结论文将会被NeurIPS 2024直接收录。