DoLa:通过对比层次解码改善大型语言模型中的真实性
提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
Dec, 2023
大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力,但存在虚构结果的问题。最近的研究关注于解码技术,通过利用 LLMs 的分层表示技术及在推理过程中操纵预测分布,提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择,解耦选择过程与最后一层之间的关系,实验结果显示非常好的性能,并在多个数据集上大幅领先,分析结果表明不同类型的提示需要不同的选择策略。
Apr, 2024
提出了一种上下文感知解码技术(CAD),通过对比上下文的存在与否来放大模型生成输出的概率得分,从而显著提高了 OPT、GPT、LLaMA 和 FLAN-T5 等不同 LM 系列在摘要任务中的可信度,并能够有效地改变模型的先验知识以解决知识冲突而带来的质量问题。
May, 2023
利用对比解码方法生成的文本展现在各种推理任务中相比贪婪解码有着显著的提升,并在 HellaSwag 常识推理基准测试中胜过 LLaMA 2、GPT-3.5 和 PaLM 2-L,在 GSM8K 数学词语推理基准测试中超过 LLaMA 2、GPT-3.5 和 PaLM-540B,同时在其他任务中也有进步。分析表明,对比解码通过防止一些抽象推理错误和避免简单的复制输入部分来改善现有方法,从而在长文本生成和推理任务方面优于核心取样和贪婪解码,使其成为从语言模型生成文本的强大通用方法。
Sep, 2023
大规模语言模型的快速发展使其以更人性化的方式传递实际知识。减少事实幻觉的工作通过修改语言模型的事实解码来改进模型的事实准确性。然而,这也带来了阻碍知识更新的风险,因为它使模型过度自信于已知事实。本研究首先重新审视当前的事实解码方法,验证了其提高事实准确性的有效性。随后,我们对多种强大的事实解码方法在知识编辑基准上进行了进一步评估。与原始解码相比,所有这些解码方法都显著降低了 llama2 模型的性能,最大降幅高达 81.3%。这进一步表明当前存在的解码方法仍无法完全解决事实幻觉问题,因为它们忽视了保留知识编辑灵活性的重要性。因此,我们的研究建议在事实对齐的同时,也要关注知识编辑的效果。
Mar, 2024
大型语言模型在生成文本时常常不能充分整合输入上下文,过度依赖模型参数中的编码先验知识,导致生成的文本存在事实不一致或上下文不忠实的内容。本研究提出了一种新颖的方法,利用对抗性无关信息作为负样本,通过对比解码来增强生成过程中的强大上下文基础。值得注意的是,我们的方法在推理时不需要额外的训练,并通过全面实验证明了其可行性和有效性,提供了实证证据表明其优于现有方法。
May, 2024
本文提出了一种新方法,利用模型层次之间的对比来改善文本生成输出,并显示它可以缓解开放性生成模型的退化行为,显着提高生成文本的质量。另外,我们的结果表明,在推理时对比模型层可以从给定的模型参数集中更有效地提取知识,从而为一定方面的通用语言模型能力带来实质性的益处。
May, 2023
本文提出了一种基于对抗解耦的方法(DECENT),旨在提高大型语言模型(LLMs)的文本摘要的准确性和可靠性,以克服其在生成摘要时出现的谬误和虚假细节的问题。
Oct, 2023
大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。
Mar, 2024
本文主要研究了多模式大型语言模型(MLLMs)在生成文本时存在的对象虚构问题,并提出了一种对抗调整的方法来减轻虚构现象,其中通过选择性地改变真实信息来通过生成性数据增强产生虚构的标记,从而提高真实标记相对于虚构标记的相对可能性,实验证实了这种方法在减轻虚构现象上的有效性,而且这种方法简单、快速,需要很少的训练且在推理过程中没有额外的开销。
May, 2024