- RATT: 一个用于连贯和准确的 LLM 推理的思维结构
通过引入检索增强思维树(RATT),结合事实知识和策略可行性,以提高大型语言模型(LLMs)的逻辑推理和决策效率。经过各种任务的广泛实验验证,RATT 在事实正确性和逻辑连贯性方面明显优于现有方法。
- 对新知识进行细调的 LLMs 是否鼓励产生幻觉?
大型语言模型在通过有监督微调对齐时,会遇到并未通过预训练获得的新的事实信息,从而可能教会模型产生虚假的事实错误响应,导致模型训练生成不基于其现有知识的事实。本研究旨在研究这种新知识暴露对经过微调的模型利用其现有知识的影响。我们设计了一个可控 - LLMs 中可靠的潜在知识估计:与上下文学习相比,基于提示的事实知识提取
我们提出了一种估计大型语言模型中嵌入的潜在知识的方法,该方法利用了大型语言模型的上下文学习能力来估计模型对存储在知识库中的事实的了解程度,并且我们的知识估计器避免了以前的提示式方法中存在的可靠性问题,且在概念上更简单且更易于应用,我们证明它 - 揭示 LLMs:时间知识图中潜在表示的演变
通过对 Large Language Models(LLMs)的实证分析,本文提出了一种新的端到端框架,能够解码 LLMs 中隐藏的事实知识,并使用时间性知识图表达其在各层中的演化,以实现对 LLMs 的机理解释。通过局部和全局的解释性分析 - LLM 能否免费获取事实性解码?知识编辑基准评估
大规模语言模型的快速发展使其以更人性化的方式传递实际知识。减少事实幻觉的工作通过修改语言模型的事实解码来改进模型的事实准确性。然而,这也带来了阻碍知识更新的风险,因为它使模型过度自信于已知事实。本研究首先重新审视当前的事实解码方法,验证了其 - ACL多语言语言模型事实的追溯:独立、共享和转移知识
多语言语言模型中获取事实知识的方式以及如何在不同语言中保持一致的事实知识是一项重要的挑战。
- 对齐更长时间:一种简单但难以打败的教学微调基准
在对指令微调的研究中,最长指令的选择应该是任何研究的默认基线,因为经证实此方法能够在 LLMs 中提高性能,保持与对事实的知识进行测试的 OpenLLM 基准的竞争力。
- ACL英国女王并非英国的女王:关于基于语言模型的事实连贯性缺失
在本研究中,我们考虑了预训练语言模型(PLMs)中的实际知识的一种补充性特征,即 PLMs 中实际知识的连贯性。我们的结果表明,PLMs 在使用手动编写的、优化的和改写的提示时具有较低的连贯性,但包含证据段落则会有显著改善。这表明 PLMs - EMNLP语言表征投射:我们能在多语言语言模型中跨语言转移事实知识吗?
通过两个无参数的语言表示投影模块(LRP2),本文调查了从英语到非英语语言的显式传输相对丰富的事实知识的可行性,并在 mLAMA 数据集上的实验结果证明了 LRP2 显著提高了事实知识检索精度,促进了对多种非英语语言的知识传递能力。
- EMNLP给我事实!关于预训练语言模型的事实知识探测调查
对预训练语言模型进行事实知识探测的方法和数据集进行了调研,并提出了一种基于输入、输出和被探测模型适应性的事实探测方法分类方案,综合分析了语言模型中的知识保留和提示优化问题,讨论了采用语言模型作为知识库的障碍和未来研究方向。
- EMNLP大型语言模型中的事实知识系统评估
通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识,本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案,然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了 - EMNLP多语言语言模型中事实知识的跨语言一致性
对多语言大规模预训练语言模型进行研究,发现不同语言之间的事实知识存在显著差异。为了确保具有不同语言背景的用户从同一模型中获得一致的反馈,我们提出了一种基于排名的一致性评估指标,并对模型层面和语言对层面的一致性决定因素进行了深入分析。研究结果 - 大型语言模型是否了解事实?
通过设计基准测试 Pinocchio,综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围,研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性,这成为实现可靠人工智能的关键瓶颈。
- KLoB:语言模型中知识定位方法评估基准
近期,Locate-Then-Edit 范式已成为改变语言模型中存储的事实知识的主要方法之一,然而,对于现有的定位方法是否能够准确定位到所需的知识嵌入的确切参数缺乏研究,此外,虽然许多研究人员对事实知识的局部性假设的有效性提出了质疑,但并未 - 增强上下文学习的事实知识
通过注入事实知识、选择高相关性示例,并基于先前知识校准预测结果,提出了一种称为 KICT 的知识内外训练框架,以进一步改善 In-Context Learning (ICL) 的性能。在多个文本分类和问题回答任务上的实验证明,KICT 明显 - DoLa:通过对比层次解码改善大型语言模型中的真实性
通过对比模型的不同层次的逻辑概率分布,通过一个简单的解码策略来减少大语言模型中的幻觉,并提高生成真实、准确事实的能力。
- 知识神经中心之旅:发现无关语言的知识神经元和退化知识神经元
本研究揭示了多语种预训练语言模型中的事实知识是如何存储在参数中的,并引入了架构适应性多语种集成梯度方法,它相比现有方法更准确地定位知识神经元,并且在不同的架构和语言中更具普适性。此外,我们对知识神经元进行了深入探索,发现了两个重要发现:(1 - 评估语言模型中知识编辑的连锁反应
通过提出一套新的评估标准,我们构建了一个诊断基准集合,其中包含了 5K 个不同类型的知识扩展,我们在该基准上对知名的编辑方法进行了评估,结果表明现有的方法在模型知识的一致性变化方面存在问题,同时我们发现通过简单的上下文编辑方法可以在我们的基 - ReFACT:通过编辑文本编码器更新文本到图像模型
ReFACT 是一种用于修正文本生成图像模型中的事实知识的方法,通过更新编码器中的特定层的权重来更新模型的部分参数,从而实现对相关概念的优化,同时保留不相关概念和图像生成质量。
- 预训练语言模型中知识获取和利用差距的测量
本研究采用系统化的框架来衡量预训练语言模型中参数化知识的利用情况,以事实知识衡量了 12.5M 到 13B 参数的模型,并观察到它们在获取与利用知识方面存在差距和一定程度的鲁棒性问题,而更大的模型可以减少获取知识的差距,但利用知识的差距仍然