【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。
简单来说就是:模型输出的描述与图片内容不相符。
下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。
幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。
以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。
然而,这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。
近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构「啄木鸟(Woodpecker)」,通过修正的方式解决MLLM输出幻觉的问题。