当前位置: 江南文明网 > 科技 > 智能 >

腾讯AI Lab大模型幻觉问题综述

条评论

腾讯AI Lab大模型幻觉问题综述

在古希腊的神话中,有一种名为塞壬 (Serin) 的海妖,她们通过美丽的歌喉制造幻像,诱导往来的船只触礁沉没。

 

大规模语言模型在众多下游任务中展现了惊人的能力,但它们在使用中仍然暴露了一些问题。其中,幻觉是目前影响大模型落地的重要问题之一。ChatGPT 的发布使学术界和工业界关注大模型实际落地的潜能,大量关于幻觉的工作也开始涌现。

近期,腾讯 AI Lab 联合国内外多家学术机构发布了面向大模型幻觉工作的综述,对幻觉的评估、溯源、缓解等进行了全面的探讨。


 

 

  • 论文链接:https://arxiv.org/abs/2309.01219
  • Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey

 


 

什么是大模型幻觉问题?

根据相关工作和平时对大模型的使用体验,研究人员总结了大模型常见的三类幻觉:

 

  1. 和用户输入冲突的幻觉 (Input-Conflicting Hallucination):大模型生成的回复违背了用户输入中的任务指示或者任务输入。
  2. 和已生成的上下文冲突的幻觉 (Context-Conflicting Hallucination):大模型生成的回复出现了自我矛盾。
  3. 和事实知识冲突的幻觉 (Fact-Confilicting Hallucination):大模型生成的回复与公认的事实知识出现了冲突。

 


 

在上述三类幻觉中,和事实知识冲突的幻觉是目前大模型幻觉研究的核心热点。研究人员认为是因为这一类幻觉研究的难度更大,对用户实际使用体验的干扰也最大。例如,大模型在生成医疗建议时可能会捏造错误的药品剂量,误导缺少专业医学知识的用户,产生风险。

大模型幻觉和传统幻觉的主要区别在哪里?

在大模型时代前 (以 ChatGPT 的发布为节点),幻觉问题在传统的自然语言生成任务中也有一定的研究积累。研究人员总结了大模型幻觉和传统幻觉研究的几点重要区别:

 

  1. 大模型使用海量训练数据:与传统任务不同,大模型需要在海量数据上进行大规模预训练。这些海量数据往往采集于互联网,可能包含大量伪造的、有偏见、过时的内容,从而导致幻觉。由于数据规模过大,上述问题内容也难以分析和筛除。
  2. 大模型的通用性:传统模型往往只面向单一的任务,而大模型则被应用于多任务、多语言、多领域的通用场景。大模型的通用性给幻觉的全面评估、消除带来了全新挑战。
  3. 大模型幻觉不易被察觉:由于大模型的强悍能力,大模型生成的幻觉看上去非常合理,有的时候甚至人类都很难发现。
  4. 其他区别:大模型的一些新特性,例如额外引入的基于人类反馈的强化学习 (RLHF) 过程、模糊的知识边界、以及潜在的黑盒属性,也给幻觉研究带来了新的挑战。