透过双向语言模型编辑解除逆转咒语

Oct, 2023

透过双向语言模型编辑解除逆转咒语

Untying the Reversal Curse via Bidirectional Language Model Editing

Jun-Yu Ma, Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu

TL;DR本文研究双向语言模型编辑，旨在提供严格的模型编辑评估，以评估编辑后的语言模型是否能双向回忆编辑的知识。引入了一种新的可逆性评估度量，并构建了一个名为 Bidirectional Assessment for Knowledge Editing (BAKE) 的基准来评估编辑后模型在回忆编辑的知识反向方向上的可逆性。我们惊奇地发现，虽然当前的编辑方法和语言模型在编辑方向上能有效地回忆编辑的事实，但在反向方向上评估时存在严重不足。为了缓解这种逆转的问题，提出了一种名为 Bidirectionally Inversible Relationship moDeling (BIRD) 的方法。设计了一组编辑目标，将主体和客体之间的双向关系纳入更新后的模型权重中。实验证明，BIRD 通过问答和判断提高了四个不同规模的代表性语言模型的性能。

Abstract

Recent studies have demonstrated that large language models (LLMs) store massive factual knowledge within their parameters. But existing LLMs are prone to hallucinate unintended text due to false or outdated knowledge. Since retraining LLMs is resource intensive, there has been a growi

large language models model editing reversibility knowledge recall bidirectionally inversible relationship modeling

发现论文，激发创造

是否陷入中等智能陷阱？逆转诅咒的分析与缓解

大型语言模型中存在的逆转诅咒问题，训练目标的限制以及对整个上下文的了解程度对其影响，因此提出了一种新的训练方法 BICO 来缓解这一问题。

Nov, 2023

通过训练动力学探索 “逆转诅咒” 的理论理解

通过训练动力学，理论分析自回归模型中的逆转问题，揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性；同时，证明了链式思维在一层变压器中的必要性，并进行了与多层变压器的实验证实。

May, 2024

逆转诅咒：基于 “A 是 B” 训练的 LLMs 无法学习到 “B 是 A

该研究揭示了自回归大型语言模型（LLM）中的泛化失败现象，即逆转诅咒，导致逻辑推断的基本失败。通过证据和评估表明 Reversal Curse 在不同模型大小和家族中都是普遍存在的。

Sep, 2023

逆向训练护理逆转诅咒

大型语言模型（LLMs）在 “A 具有特征 B” 的训练中无法推广到 “B 是 A 的特征”，这称为反转诅咒。本研究提出了一种替代训练方案，称为反向训练，通过将训练字符串进行反转并保留（即不反转）选择的子字符串（如实体）来同时以正向和反向方式训练 LLM，以加倍可用令牌的数量。我们证明，数据匹配的反向训练模型在标准任务上提供了优越的性能，而计算匹配的反向训练模型在反转任务上提供了远超过标准模型的性能，有助于解决反转诅咒问题。

Mar, 2024

大型语言模型能否稳健地进行编辑？

大语言模型的编辑方法在实际应用中存在明显的性能衰退，更流行的知识难以编辑且对性能和鲁棒性有较强关联。

Feb, 2024

跨界拓展：模型编辑对跨语言性能的影响研究

该研究通过考察多语境下的几种知识编辑技术，战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语等语言上的性能。研究发现了跨语言一致性方面正常模型和合并模型之间的显著差异。我们采用 “每种语言为自己”（ELFI）和 “每种语言为他人”（ELFO）等策略对这些模型进行了强化测试。研究结果表明，LMM 具有克服语言障碍的潜力，为实现人工智能技术中的语言包容性奠定了基础。

Jun, 2024

大型语言模型中的跨语言知识编辑

本文旨在研究知识编辑领域中源语言编辑对不同目标语言的交叉效应，通过将 ZsRE 从英文翻译成中文，构建大规模的跨语言合成数据集，对不同范式的知识编辑方法进行英文和中文的编辑，并评估其在不同方面的性能。进一步分析编辑模型的不一致行为并讨论其挑战。

Sep, 2023

通过语义感知的排列训练减轻逆序诅咒

通过语义感知排列训练（SPT）方法，我们成功解决了因句子结构差异导致的逆转诅咒问题，改进了因果语言模型的性能，并推进了当前研究的发展。

Mar, 2024

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Feb, 2024

大型语言模型知识编辑的陷阱揭示

本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题，并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示，知识编辑可能意外产生对大型语言模型的意想不到的后果，因此需要引起关注并进行进一步研究。

Oct, 2023