细粒度自我认可提高事实性和推理能力

Feb, 2024

细粒度自我认可提高事实性和推理能力

Fine-Grained Self-Endorsement Improves Factuality and Reasoning

Ante Wang, Linfeng Song, Baolin Peng, Ye Tian, Lifeng Jin...

TL;DR该研究旨在通过减少事实冲突的幻觉来改善大型语言模型在推理时的生成。我们提出了一种自我认可框架，通过对多个样本回答进行细粒度的事实级别比较，相比之前的集成方法，我们的方法可以更好地减轻幻觉，尤其是对于长篇生成任务。我们的方法可以广泛受益于更小的和开源的语言模型，因为它主要进行简单的基于内容的比较。对传记的实验表明，我们的方法可以通过简单直观的提示有效地改善生成的客观性，适用于不同规模的语言模型。此外，对 TriviaQA 和 GSM8K 的全面分析展示了自我认可在更广泛应用中的潜力。

Abstract

This work studies improving large language model (LLM) generations at inference time by mitigating fact-conflicting hallucinations. Particularly, we propose a →

large language model fact-conflicting hallucinations self-endorsement framework hallucinations mitigation factuality improvement

发现论文，激发创造

自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

通过自我完善增强的知识检索减轻大型语言模型的幻觉

在医学领域中，通过使用自我完善的知识图谱检索方法（Re-KGR），我们可以显著提高大型语言模型的真实性，降低谬误并减少虚构内容。

May, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Jan, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

细粒度幻觉检测与编辑语言模型

大语言模型倾向于生成多样的事实不准确的陈述，本文提出了一个新的任务 - 自动细粒度幻觉检测，并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估，我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉，而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤，我们训练了 FAVA，一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中，我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT，尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性，导致了 5-10% 的 FActScore 改进。

Jan, 2024

Factcheck-GPT: 端到端的细粒度文档级事实检查与纠正 LLM 输出

该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案，包括多阶段的注释方案和注释工具的设计，以识别 LLM 输出中的可验证性和事实不一致性，并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明，已有工具在识别错误声明方面存在困难，最佳 F1=0.53。

Nov, 2023