CAIS等举办NeurIPS 2023攻击赛，让大模型制定毁灭人类计划

让大模型成功越狱，拿3万美元奖金。NeurIPS 2023上，由CAIS等机构举办的LLM攻击赛等你挑战。与此同时，Jim Fan也将联手谷歌MIT等举办第2届「决策基础模型」workshop——AI智能体是未来！

这背后的「黑客」便来自CMU、CAIS等机构的研究人员。

他们发现，只要通过附加一系列特定的无意义token，就能生成一个神秘的prompt后缀。由此，任何人都可以轻松破解LLM的安全措施，生成无限量的有害内容。

论文地址：https://arxiv.org/abs/2307.15043

代码地址：https://github.com/llm-attacks/llm-attacks

就在今年的NuerIPS 2023上，这篇论文的作者Andy Zou（CMU）、Zifan Wang（CAIS）将联合其他该领路的大佬，共同举办Trojan Detection Competition （LLM Edition）挑战赛。

划重点：比赛的奖金池高达3万美元。

此外，获得第一名的团队将受邀共同撰写总结比赛结果的论文，并在NeurIPS 2023的研讨会上发表简短的演讲。其中，总结论文将会被NeurIPS 2024直接收录。

图片新闻