- BMIKE-53:探索带上下文学习的跨语言知识编辑
以 53 种不同的语言为基础,评估跨语言知识编辑的 BMIKE-53 基准的多语言上下文知识编辑(MIKE)方法,提供了关于可靠性、普适性、局部性和可移植性的重要见解和框架,为跨语言知识编辑的未来研究奠定了基础。
- 知识编辑方法如何有效编辑让人困惑的知识?
大语言模型知识编辑的挑战在于不同类型的知识以及层次关系对编辑效果的影响。本研究通过量化知识的困惑度并评估编辑方法的效果,发现新知识的困惑度与编辑效果存在负相关。进一步研究发现,抽象概念更困惑,而层次关系对编辑结果有影响。研究提供了更深入的大 - 电路意味着什么?知识编辑视角
通过知识编辑的视角,我们介绍了一种学习语言模型电路的新方法。通过在 GPT2-XL 模型中提取电路,使用多样的文本分类数据集和层次关系数据集,我们发现这些电路包含实体知识,但在知识编辑中对新知识的抵抗力高于互补电路。此外,我们研究了电路尺寸 - 检索与推理相遇:长文本理解的动态上下文编辑
通过动态上下文编辑的方式,我们引入了一种新的方法,将信息检索重新设想,使长文本上下文成为可塑的外部知识,并通过与最新的知识编辑技术相结合,与有关信息进行交互式收集和整合,从而使大型语言模型能够进行复杂的推理步骤,有效增强了推理能力。
- 上下文编辑:从自引导分布中学习知识
已有的语言模型微调范式在知识编辑场景下容易出现脆弱性,本文提出了一种名为一致上下文编辑(ICE)的新方法,利用模型的上下文学习能力来调整模型以适应上下文分布而非单一目标,通过直观的优化框架增强了梯度调整方法的鲁棒性和效果,实验证明了 ICE - MEMLA: 用神经掩蔽低秩适应增强多语言知识编辑
多语言知识编辑涉及通过神经元屏蔽、低秩适应等方法,在多语言语言模型中进行跨语言更新,以提高编辑精度和多跳推理能力。
- RoseLoRA: 面向知识编辑和微调的稀疏低秩预训练语言模型的行列稀疏低秩适应
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
- 大型语言模型中的关键神经元分析
本研究引入了神经元归因逆向集群归因(NA-ICA)的新架构不受限于特定模型,能够有效识别大型语言模型中的关键神经元,并通过多选题回答的代理任务检查单词以外的长文本答案。经验评估证明,NA-ICA 明显优于基准方法。此外,对神经元分布的分析揭 - DIEKAE:大规模语言模型高效知识增强与编辑的差异注入
本文介绍了一种将外部知识注入到预训练语言模型中的新方法,通过采用一系列编码器,将外部知识处理和注入到预训练语言模型层,从而显著减少计算成本并提高模型性能。与其他多种方法相比,在知识扩充和编辑的训练和推理过程中,我们的方法更快且更高效。
- 通过调整的直接偏好优化对语言模型进行知识编辑
基于在线方法的知识编辑,使用当前已知知识作为负样本,并引入新知识作为正样本,通过使用改进的 DPO 方法,进一步优化知识编辑,以实现与先前方法相似或更好的性能。
- ACL通过高效微调进行时间敏感知识编辑
通过研究发现,Parameter-Efficient Fine-Tuning (PEFT) 技术相较于定位和编辑方法,在时效性知识编辑方面表现更优,从而为大型语言模型的更新提供了一种替代方案。
- ACL旧问题感知解码的事实知识编辑
我们提出了一种名为 DISCO 的简单而有效的解码策略,通过捕捉原始模型与编辑模型之间的概率分布差异,并增强编辑模型中的令牌预测差异,从而减轻过时问题,提高编辑模型在推理问题上的性能。
- 编辑巨人的思维:关于大型语言模型知识编辑陷阱的深度探索
知识编辑是一种有效更新大型语言模型中的实际知识而最小化参数改动的新兴技术。然而,近期研究发现一些令人担忧的副作用,如知识扭曲和综合能力下降,这在编辑后产生了。本调查综合研究了这些副作用,提供了一个统一的观点,对于 LLMs 中的知识编辑所面 - UnKE: 大型语言模型中的非结构化知识编辑
提出了一种名为 UnKE 的新型非结构化知识编辑方法,通过在层次和标记维度进行扩展,实现了对复杂和全面的非结构化知识的有效表示和编辑,取得了显著的性能提升。
- 在知识编辑中利用逻辑规则:锦上添花
RULE-KE 是一种新颖的框架,它通过利用规则发现和逻辑规则更新高度相关的事实的知识,来提高知识编辑下面的所有现有 MQA 方法的性能。
- 对比知识解码:提高理解性语言模型对经过编辑事实的信心
通过对上下文新知识的影响进行分析,我们观察到虽然新知识的 logits 显著提升,但由于顽固的知识的存在,in-context editing 的性能仍然受到限制。为了解决这个问题并进一步提高 in-context editing 的性能, - TAXI:评估语言模型的分类知识编辑
人工编辑语言模型的知识注入对语义的一致性要求较高,现有的基准数据集无法充分评估一致性,本文创建了 TAXI 基准数据集,并使用它评估了流行编辑器的一致性表现,发现编辑器的一致性明显低于人类基准,且在编辑非典型主题时更易实现一致性。
- MLaKE:大型语言模型的多语言知识编辑基准
通过多个语言中的多跳推理和单跳问题,MLaKE(多语言语言知识编辑)评估了知识编辑方法在多语言环境下的适应性,发现现有方法在英语样本上表现较好,但在多语言实验中的泛化能力有限,强调了多语言知识编辑的发展需求。
- 多跳问题回答在时间知识编辑下的应用
多跳问题回答(MQA)与知识编辑(KE)相结合的研究引起了广泛关注,然而现有的 MQA 模型在处理带有明确时间背景的问题时性能较差。为了解决这一限制,我们提出了一种新的框架,即 TEMPLE-MQA,通过构建时间感知图(TAG)来有效区分问 - LLM 能否免费获取事实性解码?知识编辑基准评估
大规模语言模型的快速发展使其以更人性化的方式传递实际知识。减少事实幻觉的工作通过修改语言模型的事实解码来改进模型的事实准确性。然而,这也带来了阻碍知识更新的风险,因为它使模型过度自信于已知事实。本研究首先重新审视当前的事实解码方法,验证了其