理解基于事实知识提取的微调

ICMLJun, 2024

Understanding Finetuning for Factual Knowledge Extraction

Gaurav Ghosal, Tatsunori Hashimoto, Aditi Raghunathan

TL;DR本文研究了 QA 微调数据对下游事实性的影响，证明了微调在不太为人知的事实上时，即使在预训练期间看到了所有事实，其事实性远远不如在众所周知的事实上进行微调，我们的结果揭示了预训练知识和微调数据之间的相互作用，并在为知识密集型任务进行微调时强调了预训练模型中事实存储的重要性。

Abstract

In this work, we study the impact of qa fine-tuning data on downstream factuality. We show that fine-tuning on lesser-known facts that are poorly stored during →

qa fine-tuning data downstream factuality pretraining lesser-known facts knowledge-intensive tasks

发现论文，激发创造

从语言模型中提取事实知识的微调理解

本文分析语言模型在事实知识提取中的应用，发现 finetuning 会造成一个负面现象 - Frequency Shock，导致模型预测能力下降，因此提出两种解决方案（模型混合和混合 finetuning），并验证实验表明这两种解决方案相比原始 finetuning 均获得了显著的改进。

Jan, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

基于微调的抽象摘要模型的实体级事实可适应性

通过分析对知识冲突的鲁棒性，本文研究了基于微调的抽象概括模型，发现并引入了一种可控的反事实数据增广方法来增强事实适应性，并在两种预训练语言模型（PEGASUS 和 BART）以及两个微调数据集（XSum 和 CNN/DailyMail）上实验证明，该方法在实现原始数据集上的事实一致性的同时提高了事实适应性。

Feb, 2024

对新知识进行细调的 LLMs 是否鼓励产生幻觉？

大型语言模型在通过有监督微调对齐时，会遇到并未通过预训练获得的新的事实信息，从而可能教会模型产生虚假的事实错误响应，导致模型训练生成不基于其现有知识的事实。本研究旨在研究这种新知识暴露对经过微调的模型利用其现有知识的影响。我们设计了一个可控制的实验，并集中于封闭式问答，通过在微调示例中引入新知识的比例来变化。我们证明大型语言模型在微调过程中较难获得新的事实知识，因为引入新知识的微调示例要比与模型现有知识相一致的示例学习速度慢得多。然而，我们还发现随着新知识的学习，它们线性增加了模型产生虚假响应的倾向。综上所述，我们的结果强调通过微调引入新的事实知识的风险，并支持大型语言模型主要通过预训练获取事实知识，而微调则教会它们更有效地使用。

May, 2024

知识感知的大语言模型微调

使用知识感知微调（KnowTuning）方法解决大型语言模型在自然语言处理任务中的知识感知不足问题，并在通用和医疗问答数据集上进行了广泛的实验证明了其有效性，并展示了其在未知问答数据集上的泛化能力。

Feb, 2024

大型语言模型是否了解事实？

通过设计基准测试 Pinocchio，综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围，研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性，这成为实现可靠人工智能的关键瓶颈。

Oct, 2023

通过因果推断保留预训练语言模型中的常识知识

通过在因果图上探索，本文发现灾难性遗忘的关键在于缺失来自预训练数据的因果影响，提出了一种统一的微调目标以恢复因果关系，将该方法实现在常识 QA 上的结果表明其有效性。

Jun, 2023

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

低标注预算约束下领域特定问答精调策略

在本研究中，我们通过对不同 QA 数据集上的顺序微调策略的性能进行全面分析，证明了传统的基于预训练语言模型和微调策略在低预算设置下是次优的。我们的实验结果表明，在低预算设置下，最佳策略是使用预训练语言模型，并将其与目标数据集和 SQuAD 数据集进行微调。在不额外标注的情况下，该策略的性能优于标准策略 2.28% 至 6.48%。这些实验结果对于 QA 从业者在低预算下如何最好地微调 QA 系统具有极大的实用价值。

Jan, 2024

FactKB：使用增强事实知识的语言模型进行可泛化事实性评估

文章提出了一种新的事实评估方法 FactKB，该方法使用基于预先抽取的实体知识的语言模型，以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试，FactKB 的事实性评估模型达到了最先进的性能水平，并表现出在摘要中检测错误实体和关系的能力显著提高，从而进一步证明其在领域通用性和鲁棒性方面的特点。

May, 2023