教导大型语言模型从自身信号中表达知识边界
通过使用知识探测、一致性检查和强化学习等方法,我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识,然而它们在生成过程中常常无法表达其内部知识,导致虚构。为此,我们提出了一种自动虚构注释工具,通过梦网,该工具将知识探测和一致性检查方法结合起来,以排名虚构偏好数据。通过使用知识偏好作为奖励,我们提出了一种从知识反馈中强化学习(RLKF)的训练框架,利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明,RLKF 训练有效地增强了模型利用其内部知识状态的能力,在各种基于知识和诚实性的任务中提高了性能。
Jan, 2024
研究了大型语言模型的知识界限,发现其在半开放问题上表现不佳,缺乏对模型知识界限的认知。通过探索模糊答案的更多可能性,发现模型的知识界限,构建了一个用于感知 GPT-4 知识界限的数据集,并使用辅助模型 LLaMA-2-13B 来发现更多模糊答案。
May, 2024
本论文探讨了大型语言模型在理解自己的知识和衡量自身不确定性方面的能力,并提供了一个新的已知 - 未知问题数据集以及一个分类方法来解释不确定性的来源。通过评估 LM 在分类已知和未知问题以及在开放式问题回答中的质量方面,量化了 LM 表达答案中的不确定性的方法。
May, 2023
通过知识一致性对齐的新方法,减少外部知识与预训练语料库中的内在知识之间的不一致,以减轻大型语言模型在对齐过程中出现的幻觉现象,并证实了知识不一致性与幻觉之间的相关性。
Jan, 2024
通过合作和竞争的方式,提出了两种新的方法来识别大型语言模型的知识缺口,并在检索增强和多跳推理中帮助识别失败案例和知识缺口。
Feb, 2024
通过与大规模语言模型和数据集合作,本文分析了医学生成型问答系统中幻觉现象的问题,并提出了一种交互自我反思的方法来解决该挑战,最终实验证明该方法在幻觉减少方面优于基线模型。
Oct, 2023
本文提出了一种创新的用户可控机制,通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签,综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度,用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度,通过广泛的实验验证了该方法的适用性和有效性,强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。
Jul, 2023
通过引入拒绝机制和可靠性度量,本文提出了一种新的对齐框架 RLKF,利用知识反馈动态确定模型的知识边界,并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题,实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。
Mar, 2024