给ChatGPT们投毒_江南文明网

AI 很快生成了多个答案，但张军军并不满意，他将其中的信息结合起来，改写出新的版本，同时覆盖到了正反观点。这是一次已知谜底的设问，参考答案就是他的人生体验。

张军军在中国盲文图书馆担任软件工程师，是一位视障人士，眼睛完全看不见，平时戴着一副用来防护的平光镜。如果他自己不说，外表上几乎看不出他和明眼人的差异。

因为看不了 PPT，张军军担心讲话和演示对不上，郑重地请观众多多担待。他正在分享的，是参与一项 AI 反歧视行动的体验：向 AI 提出 100 道刁钻且「有毒」的无障碍领域难题。

和张军军一起「投毒」的，还有李松蔚、李银河等十几位行业专家，他们分别在法理、心理、教育、环境、情感、冷知识等领域，对 AI 连番拷问，向一个共同的目标努力：

以毒攻毒，让 AI 学会给出更加中性、得体、善意的表达。

给 AI 投毒，然后「百毒不侵」

这项行动叫作「给 AI 的 100 瓶毒药」，由阿里巴巴天猫精灵与通义千问联合团队提供基础模型和标注工具。

专家们作为「毒师」，各自向 AI 提出 100 道暗藏陷阱的「有毒」问题，诱发 AI 的偏见和歧视回答，对它们进行排序、打分和改写。

意见会反馈到真实的大语言模型预训练和微调，大语言模型再利用泛化技术举一反三，以后遇到类似的问题不会再掉进坑里，完成「投毒」和「解毒」的攻防。

因为类似的问题在语言上有承接关系和隐藏的逻辑关系，给出足够刁钻的问题之后，事实结果就是，AI 在更简单的问题上会回答得更好，从而和人类理想的价值观对齐。

专家们挖坑的方式，令 AI 防不胜防，就算交给人类，也不一定答得上来。

给ChatGPT们投毒