知识注入解码

ICLRApr, 2022

Knowledge Infused Decoding

Ruibo Liu, Guoqing Zheng, Shashank Gupta, Radhika Gaonkar, Chongyang Gao...

TL;DR通过一种名为 KID 的基于强化学习的算法，将外部知识动态地注入到生成语言模型的解码过程中，以解决语境相关性和事实准确性的问题，进而在多种知识密集型自然语言生成任务中体现出比许多优化后的模型更好的性能表现。

Abstract

pre-trained language models (LMs) have been shown to memorize a substantial amount of knowledge from the pre-training corpora; however, they are still limited in recalling factually correct knowledge given a certain context. Hence, they tend to suffer from counterfactual or hallucinato

pre-trained language models generative lms knowledge-infusion natural language generation reinforcement learning

发现论文，激发创造

KILM：编码器 - 解码器语言模型中的知识注入

本文提出一种名为 KILM 的方法，在不修改预训练语言模型结构或添加参数的情况下，通过一种生成式知识补充目标，将实体相关的知识注入到编 - 解码预训练语言模型中，实验结果表明，KILM 可以使模型保持更多的知识并且在零样本学习的情况下取得更好的性能。

Feb, 2023

知识增强的推理蒸馏：面向知识密集型任务的小型语言模型

提出了知识增强推理提炼（KARD）这一新颖的方法，以从外部知识库检索的增强知识 fine-tune 小型 LM，来生成 rationale，并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型 T5 和 Flan-T5 模型的性能。

May, 2023

神经会话生成的词汇知识内化

通过内部化知识的方式，将词汇知识融入神经对话模型中，以应对因词汇知识规模庞大而带来的挑战，并采用对比学习方法创建了一个基于弱监督自 Wikipedia 挖掘的有效的标记级别的词汇知识检索器，证明了该方法在各种数据集和多元化模型结构上的有效性和普适性。

May, 2022

利用背景提示将知识注入大型语言模型

提出了一种通过从输入文本中生成提示来实现知识注入的简单而通用的方法，从而增强大型语言模型在特定领域的自然语言处理任务中的性能，并通过对微调后的大型语言模型进行探测评估来证明该方法的有效性。

Mar, 2024

KI-BERT: 基于知识背景的语言和领域理解的增强

通过对知识图谱进行多方位的知识语境注入，基于 BERT 的语言模型可以在微调期间解决概念和模糊实体的语境问题，从而在 GLUE 测试集的多个子任务中，KI-BERT-base 模型能够显著优于以 ERNIE、SenseBERT 和 BERT_CS 为代表的最新知识感知 BERT 变体，甚至比 BERT-large 模型在 SciTail 和 QQP、QNLI、MNLI 等领域特定任务方面表现更佳。

Apr, 2021

通过对比解码增强大型语言模型中的上下文理解能力

大型语言模型在生成文本时常常不能充分整合输入上下文，过度依赖模型参数中的编码先验知识，导致生成的文本存在事实不一致或上下文不忠实的内容。本研究提出了一种新颖的方法，利用对抗性无关信息作为负样本，通过对比解码来增强生成过程中的强大上下文基础。值得注意的是，我们的方法在推理时不需要额外的训练，并通过全面实验证明了其可行性和有效性，提供了实证证据表明其优于现有方法。

May, 2024

使用基于 KNN 的复合记忆增强对话的 Transformer

本研究旨在利用机器学习方法，通过增加 KNN-Based Information Fetching (KIF) 模块，将外部知识进行存储，并将其应用在 Dialog Modeling 中，以此提高自动和人类评估的模型性能。

Apr, 2020

对比知识解码：提高理解性语言模型对经过编辑事实的信心

通过对上下文新知识的影响进行分析，我们观察到虽然新知识的 logits 显著提升，但由于顽固的知识的存在，in-context editing 的性能仍然受到限制。为了解决这个问题并进一步提高 in-context editing 的性能，我们提出了一种新的方法，称为 DeCK，它通过对比由 in-context editing 引导的新编辑知识和未编辑参数化知识获得的 logits 来导出下一个 token 的分布。实验结果一致表明，DeCK 增强了 LLMs 对编辑事实的置信度，为开发 LLMs 的有效和可追溯的知识编辑方法铺平了道路。

May, 2024

InfuserKI: 通过 Infuser 引导知识集成增强大型语言模型

通过使用 Infuser-Guided Knowledge Integration (InfuserKI) 框架，我们能够高效地将未知的知识集成到 Large Language Models (LLMs) 中，从而有效地减少知识遗忘，并超过现有方法在减少知识遗忘上的表现。

Feb, 2024

神经知识语言模型

该研究提出了一种神经知识语言模型 (NKLM)，将知识图提供的符号化知识与 RNN 语言模型相结合，通过预测所生成的单词是否具有潜在事实，从预测事实的描述中复制生成这些与知识相关的单词。实验结果表明，NKLM 显著提高了性能的同时，生成了更少的未知词。

Aug, 2016