AI 很快生成了多个答案,但张军军并不满意,他将其中的信息结合起来,改写出新的版本,同时覆盖到了正反观点。这是一次已知谜底的设问,参考答案就是他的人生体验。
张军军在中国盲文图书馆担任软件工程师,是一位视障人士,眼睛完全看不见,平时戴着一副用来防护的平光镜。如果他自己不说,外表上几乎看不出他和明眼人的差异。
因为看不了 PPT,张军军担心讲话和演示对不上,郑重地请观众多多担待。他正在分享的,是参与一项 AI 反歧视行动的体验:向 AI 提出 100 道刁钻且「有毒」的无障碍领域难题。
和张军军一起「投毒」的,还有李松蔚、李银河等十几位行业专家,他们分别在法理、心理、教育、环境、情感、冷知识等领域,对 AI 连番拷问,向一个共同的目标努力:
以毒攻毒,让 AI 学会给出更加中性、得体、善意的表达。
给 AI 投毒,然后「百毒不侵」
这项行动叫作「给 AI 的 100 瓶毒药」,由阿里巴巴天猫精灵与通义千问联合团队提供基础模型和标注工具。
专家们作为「毒师」,各自向 AI 提出 100 道暗藏陷阱的「有毒」问题,诱发 AI 的偏见和歧视回答,对它们进行排序、打分和改写。
意见会反馈到真实的大语言模型预训练和微调,大语言模型再利用泛化技术举一反三,以后遇到类似的问题不会再掉进坑里,完成「投毒」和「解毒」的攻防。
因为类似的问题在语言上有承接关系和隐藏的逻辑关系,给出足够刁钻的问题之后,事实结果就是,AI 在更简单的问题上会回答得更好,从而和人类理想的价值观对齐。
专家们挖坑的方式,令 AI 防不胜防,就算交给人类,也不一定答得上来。