我们是否可以通过上下文学习来编辑事实知识?
通过注入事实知识、选择高相关性示例,并基于先前知识校准预测结果,提出了一种称为 KICT 的知识内外训练框架,以进一步改善 In-Context Learning (ICL) 的性能。在多个文本分类和问题回答任务上的实验证明,KICT 明显优于强基线模型,分别在文本分类和问题回答任务上的准确性提高了超过 13%和 7%。
Sep, 2023
我们提出了一种估计大型语言模型中嵌入的潜在知识的方法,该方法利用了大型语言模型的上下文学习能力来估计模型对存储在知识库中的事实的了解程度,并且我们的知识估计器避免了以前的提示式方法中存在的可靠性问题,且在概念上更简单且更易于应用,我们证明它可以揭示出更多嵌入在大型语言模型中的潜在知识。我们还研究了不同设计选择对基于上下文学习的知识估计性能的影响。通过所提出的估计器,我们对各种开源大型语言模型(如 OPT,Pythia,Llama (2),Mistral,Gemma 等)在来自 Wikidata 知识库的大量关系和事实上的事实知识进行了大规模评估。我们观察到不同模型家族和不同大小的模型之间的事实知识存在差异,某些关系普遍比其他关系更为熟知,但是模型在知识上存在差异,以及基本模型和其微调模型之间的知识差异。
Apr, 2024
已有的语言模型微调范式在知识编辑场景下容易出现脆弱性,本文提出了一种名为一致上下文编辑(ICE)的新方法,利用模型的上下文学习能力来调整模型以适应上下文分布而非单一目标,通过直观的优化框架增强了梯度调整方法的鲁棒性和效果,实验证明了 ICE 的优势及其在不断编辑中的潜力,确保了更新的信息被纳入同时保持模型的完整性。
Jun, 2024
本文介绍 KnowledgeEditor 一种方法,用于编辑语言模型中的知识,以修复 “错误” 或意外预测,且不需要重新训练或以元学习为前提条件。作者使用受约束的优化来训练一个超网络,该超网络可预测权重更新。作者展示了 KnowledgeEditor 的有效性,其支持两种流行的体系结构和知识密集型任务:一种是针对事实核对进行细微调整的 BERT 模型,另一种是适用于问答的序列到序列 BART 模型。
Apr, 2021
通过数据生成的视角重新解释最近的努力,并展示了流行技术解决方案的潜在更广泛的用途,接近了一个系统的角度。对于概念定义,我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究,并突显了在数据生成视角下它们之间的统一性,为未来研究结合不同研究线路的优势建立了技术基础。
Feb, 2024
本文研究利用大型语言模型和上下文学习技术进行时间知识图谱(TKG)预测,并证明可在不需要显式重点捕获结构和时态信息的情况下,LLM 与针对 TKG 预测深度设计和训练的最先进的 TKG 模型表现相当,而且本文发现使用数值索引而非实体 / 关系名称可以实现接近相同的性能,且证明上下文学习可以帮助 LLMs 学习历史上不规律的模式,从而超越基于共同或最新信息的简单预测。
May, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
以 53 种不同的语言为基础,评估跨语言知识编辑的 BMIKE-53 基准的多语言上下文知识编辑(MIKE)方法,提供了关于可靠性、普适性、局部性和可移植性的重要见解和框架,为跨语言知识编辑的未来研究奠定了基础。
Jun, 2024
通过在大型语言模型中使用代码风格的上下文学习方法,从而解决了知识基础问题回答中逻辑格式错误的问题,并在少样本设置下实现了 WebQSP、GrailQA 和 GraphQ 等主流数据集上的最新技术水平。
Sep, 2023
提出了一种用于上下文信息提取的指南学习(GL)框架,通过学习生成和遵循指南,在学习阶段,自动从少量标注中综合一组指南,在推理阶段,检索有用的指南以提升上下文学习的性能。
Oct, 2023