自我对齐以提高事实准确性:通过自我评估减少 LLMs 中的幻觉
通过使用知识探测、一致性检查和强化学习等方法,我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识,然而它们在生成过程中常常无法表达其内部知识,导致虚构。为此,我们提出了一种自动虚构注释工具,通过梦网,该工具将知识探测和一致性检查方法结合起来,以排名虚构偏好数据。通过使用知识偏好作为奖励,我们提出了一种从知识反馈中强化学习(RLKF)的训练框架,利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明,RLKF 训练有效地增强了模型利用其内部知识状态的能力,在各种基于知识和诚实性的任务中提高了性能。
Jan, 2024
通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。
May, 2024
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
通过与大规模语言模型和数据集合作,本文分析了医学生成型问答系统中幻觉现象的问题,并提出了一种交互自我反思的方法来解决该挑战,最终实验证明该方法在幻觉减少方面优于基线模型。
Oct, 2023
大规模语言模型的快速发展使其以更人性化的方式传递实际知识。减少事实幻觉的工作通过修改语言模型的事实解码来改进模型的事实准确性。然而,这也带来了阻碍知识更新的风险,因为它使模型过度自信于已知事实。本研究首先重新审视当前的事实解码方法,验证了其提高事实准确性的有效性。随后,我们对多种强大的事实解码方法在知识编辑基准上进行了进一步评估。与原始解码相比,所有这些解码方法都显著降低了 llama2 模型的性能,最大降幅高达 81.3%。这进一步表明当前存在的解码方法仍无法完全解决事实幻觉问题,因为它们忽视了保留知识编辑灵活性的重要性。因此,我们的研究建议在事实对齐的同时,也要关注知识编辑的效果。
Mar, 2024
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
单个文档新闻摘要在保真度方面取得了显著进展,但我们提出一种新的评估基准,研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。
Feb, 2024
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023