大型语言模型中共现对事实知识的影响
通过研究大型语言模型在预训练过程中获得事实知识的机制,发现预训练数据量的增加并不显著提高模型获得和保持事实知识的能力,训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系,重复训练数据会导致遗忘加速,而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率,但此提升会受到后续遗忘的影响。根据这一解释,我们对大型语言模型的表现提供了合理的解释,如对尾部知识的糟糕表现以及去重预训练语料库的好处。
Jun, 2024
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
通过提供一种语言描述训练数据如何影响预测的因果框架,我们研究了提取预训练语言模型中事实知识的问题。研究表明,诸如共现计数等简单数据统计确实会影响预测结果,暗示此类模型依赖于表浅启发式。此结果强调了研究数据集和了解 NLP 模型的因果性的重要性。
Jul, 2022
该研究总结了大型语言模型中的事实性问题,讨论了其不准确性对不同领域应用的潜在影响和挑战,分析了导致事实性错误的主要原因,介绍了评估模型事实性的方法和策略,提供了研究人员指南以增强大型语言模型的事实可靠性。
Oct, 2023
本研究提出一种影响掩蔽语言模型预训练的方法,使其在无监督的方式下优先选择有信息的词汇,实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。
Apr, 2023
评估大型语言模型的事实记忆能力及其影响因素,涵盖多个领域、知识流行度水平和模型家族,并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。
Apr, 2024
通过设计基准测试 Pinocchio,综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围,研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性,这成为实现可靠人工智能的关键瓶颈。
Oct, 2023
本文分析语言模型在事实知识提取中的应用,发现 finetuning 会造成一个负面现象 - Frequency Shock,导致模型预测能力下降,因此提出两种解决方案(模型混合和混合 finetuning),并验证实验表明这两种解决方案相比原始 finetuning 均获得了显著的改进。
Jan, 2023
通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估,发现事实性的小错误并不会显著影响下游任务,因此相关性和连贯性比事实性更为重要。此外,研究还提出了通过 Prompt Engineering 和 Knowledge Selection 来改进知识密集型任务的方法。
Oct, 2023
本文研究了大型语言模型记忆的知识与其预训练数据中信息之间的关系,结果发现语言模型回答基于事实的问题的能力与预训练期间看到的相关问题文档数量有强相关性和因果关系;同时,该研究发现,虽然更大的模型能学习更长尾的知识,但需要将模型规模增加数个数量级才能在缺乏支持数据的问题上实现具有竞争性的问答表现。最后,对相关文档数量依赖进行检索增强,能够有效捕捉长尾知识。
Nov, 2022