利用对比输入解码揭示大型语言模型中的偏见
大型语言模型在生成文本时常常不能充分整合输入上下文,过度依赖模型参数中的编码先验知识,导致生成的文本存在事实不一致或上下文不忠实的内容。本研究提出了一种新颖的方法,利用对抗性无关信息作为负样本,通过对比解码来增强生成过程中的强大上下文基础。值得注意的是,我们的方法在推理时不需要额外的训练,并通过全面实验证明了其可行性和有效性,提供了实证证据表明其优于现有方法。
May, 2024
利用对比解码方法生成的文本展现在各种推理任务中相比贪婪解码有着显著的提升,并在 HellaSwag 常识推理基准测试中胜过 LLaMA 2、GPT-3.5 和 PaLM 2-L,在 GSM8K 数学词语推理基准测试中超过 LLaMA 2、GPT-3.5 和 PaLM-540B,同时在其他任务中也有进步。分析表明,对比解码通过防止一些抽象推理错误和避免简单的复制输入部分来改善现有方法,从而在长文本生成和推理任务方面优于核心取样和贪婪解码,使其成为从语言模型生成文本的强大通用方法。
Sep, 2023
提出了一种上下文感知解码技术(CAD),通过对比上下文的存在与否来放大模型生成输出的概率得分,从而显著提高了 OPT、GPT、LLaMA 和 FLAN-T5 等不同 LM 系列在摘要任务中的可信度,并能够有效地改变模型的先验知识以解决知识冲突而带来的质量问题。
May, 2023
提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
Dec, 2023
大规模视觉 - 语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了 Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE 和 MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了 LVLM 的一般感知和识别能力。
Mar, 2024
通过对上下文新知识的影响进行分析,我们观察到虽然新知识的 logits 显著提升,但由于顽固的知识的存在,in-context editing 的性能仍然受到限制。为了解决这个问题并进一步提高 in-context editing 的性能,我们提出了一种新的方法,称为 DeCK,它通过对比由 in-context editing 引导的新编辑知识和未编辑参数化知识获得的 logits 来导出下一个 token 的分布。实验结果一致表明,DeCK 增强了 LLMs 对编辑事实的置信度,为开发 LLMs 的有效和可追溯的知识编辑方法铺平了道路。
May, 2024
本研究比较了两种最近提出的解码方法,即对比搜索(CS)和对比解码(CD),发现尽管 CS 在 MAUVE 指标上表现不佳,但在多样性和连贯性指标上大大超过 CD。人工评估显示,人类注释器普遍更喜欢 CS 而非 CD,MAUVE 与人工评估之间的矛盾表明 MAUVE 不准确反映人类偏好,需要开发更好的评估指标来确保生成结果的可复制性。
Nov, 2022
提出使用对比学习来减少低质量文摘的可能性,同时增加黄金文摘的可能性,以解决 Encoder-decoder 模型在训练和推理中的偏差问题,并在实验中证明这种方法有效地提高了最先进模型在不同数据集上的性能。
Aug, 2021