FLAME: 大型语言模型的事实感知对齐
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
通过使用加强学习从人类反馈中获取的方法,我们提出了基于事实增强的视觉语言对齐算法,以解决大多模态模型中的模态不匹配问题,并在实际场景中取得了显著的改进。
Sep, 2023
使用 ChatGPT 生成高质量反馈数据,从而改善临床笔记概括任务中的事实一致性,并展示了 GPT 编辑在人类对齐中的潜在用途,特别是从事实角度。
Oct, 2023
介绍了一种新颖的事实推理方法(Factual Entailment),用于检测大型语言模型生成的内容中的事实错误(hallucinations),并提出了一个基准数据集(FACTOID)用于评估和排名语言模型的自动错误产生脆弱性指数(Auto Hallucination Vulnerability Index) 。
Mar, 2024
大型语言模型(LLMs)在各种自然语言处理任务上表现出色。然而,它们容易生成流畅但不真实的回复,即 “幻觉”。幻觉可能导致错误信息的传播,并在关键应用中造成伤害。减少幻觉具有挑战性,因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题,实现减少幻觉但不进行重大结构更改或重新训练。然而,这些方法要么隐式地在潜在空间中编辑 LLMs 的行为,要么在解码过程中抑制输出不忠实的结果的倾向,而不是显式地对幻觉进行建模。在本文中,我们介绍了忠实微调(F2),这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验,并证明 F2 相对于基线模型能够取得显著改进。
Jun, 2024
提出了一个多阶段的框架,通过生成合理的依据并验证修正错误,将其作为支持参考生成答案,提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确,并通过与商业模型进行竞争,提高了小型开放访问的 LLMs 的准确性。
Nov, 2023
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
该研究针对大型语言模型在事实性上出现的错误回应现象,通过偏好学习方法对模型进行微调以提升事实性,并提出了 APEFT 框架,通过加强模型对个体事实的认识,提高了模型在不同数据集上的表现,平均提升了 3.45%。
Jun, 2024
通过使用知识探测、一致性检查和强化学习等方法,我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识,然而它们在生成过程中常常无法表达其内部知识,导致虚构。为此,我们提出了一种自动虚构注释工具,通过梦网,该工具将知识探测和一致性检查方法结合起来,以排名虚构偏好数据。通过使用知识偏好作为奖励,我们提出了一种从知识反馈中强化学习(RLKF)的训练框架,利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明,RLKF 训练有效地增强了模型利用其内部知识状态的能力,在各种基于知识和诚实性的任务中提高了性能。
Jan, 2024