寻找神经策源地：从参数角度看大型语言模型的知识转移

Oct, 2023

寻找神经策源地：从参数角度看大型语言模型的知识转移

Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective

Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He

TL;DR通过参数的视角，本文以敏感性为基础的技术来提取和对齐不同规模的大型语言模型之间的知识特定参数，并且使用 LoRA 模块作为注入提取的知识到较小模型的中间机制，通过四个基准测试验证了我们提出的方法的有效性，突出强调了影响参数化知识传递过程的重要因素，凸显了模型参数在不同规模的大型语言模型之间的可转移性。

Abstract

large language models (LLMs) inherently encode a wealth of knowledge within their parameters through pre-training on extensive corpora. While prior research has delved into operations on these parameters to manipulate the underlying implicit knowledge (encompassing detection, editing,

large language models knowledge transfer parametric perspective lora module model parameters

发现论文，激发创造

利用参数化知识引导增强的大型语言模型

本论文提出了 Parametric Knowledge Guiding（PKG）框架，使 LLMs 具有在运行时访问相关知识的能力，从而在适应长尾或特定领域任务方面提高性能，并同时考虑了透明度和数据隐私的问题。

May, 2023

大型语言模型的外部和参数知识融合评估

融合外部知识到大型语言模型（LLMs）中，以克服其古老且静态参数化记忆所带来的局限性，增强 LLMs 在知识整合方面的能力成为很有前景的解决方案。然而，先前的研究倾向于过度依赖外部知识，低估了 LLMs 内在参数化知识的宝贵贡献。尤其是在外部知识不完整且需要参数化知识补充的情况下，LLMs 在混合外部和参数化知识方面的有效性仍然未被广泛探索。本研究将知识融合拆解成四个不同的场景，并首次对 LLMs 在每个场景下的行为进行了系统研究。我们开发了一个系统化的数据构建和知识注入流程来模拟这些融合场景，从而进行了一系列的对照实验。我们的调查结果表明，增强 LLMs 内部的参数化知识可以显著增强它们的知识整合能力。然而，我们发现在记忆和引出参数化知识以及确定参数化知识边界方面仍然存在挑战。我们的研究结果旨在引导未来对 LLMs 内部外部知识协调的探索。

May, 2024

基于检索的知识迁移：一种有效的极端大型语言模型压缩方法

我们介绍了一种称为 Retrieval-based Knowledge Transfer (RetriKT) 的新型压缩模型的方法，通过从大规模预训练语言模型中提取知识，构建一个知识存储库，小规模模型可以从中检索相关信息并利用它进行有效推理，实验证明该方法显著提升了小规模模型的性能。

Oct, 2023

社会学习：朝着与大型语言模型进行合作学习

在大型语言模型（LLMs）中，介绍了 “社交学习” 的框架，其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法，第一种情景中，模型生成抽象提示用于教授任务，而我们的第二种方法中，模型通过生成合成示例来传递知识。我们在多个数据集上评估了这些方法，并以记忆作为隐私损失的代理进行了量化。这些受社交学习启发的技术得到了有希望的结果，原始数据的记忆化较低。特别是，我们表明使用这些方法的性能与使用原始标签和提示的结果相当。我们的工作证明了社交学习在 LLMs 中的可行性，建立了基础方法，并突出了几个尚未开发的领域的重要性。

Dec, 2023

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

PALT: 轻量化参数的语言模型传递在知识图谱完成中的应用

该论文提出了一种参数轻量级的迁移学习方法，使用预训练语言模型进行知识图谱补全，在固定几个新参数的同时保持原来的语言模型不变，通过在原始 LM 之上引入一个参数轻量级编码器来建立模型，实现 KG 补全任务。实验表明，通过调整比微调更少的参数，LM 可以在大多数任务上实现非平凡的迁移，达到先前基于状态良好的方法的竞争力。

Oct, 2022

当不应信任语言模型：探究参数式与非参数式记忆的有效性和局限性

此论文通过在新的问题 / 答案（QA）数据集 PopQA 上对 10 个模型和 4 种增强方法进行大规模的知识探测实验，旨在了解大型语言模型 (LMs) 在记忆事实知识方面的优劣，发现 LMs 在纽约市场上的市场地位相对较低，而检索增强的 LMs 在不需要检索的情况下可以显著地改善性能，并降低推理成本。

Dec, 2022

LLM2KB：利用调整指导上下文感知的大型语言模型构建知识库

使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型，通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体，并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。

Aug, 2023

预训练语言模型中知识获取和利用差距的测量

本研究采用系统化的框架来衡量预训练语言模型中参数化知识的利用情况，以事实知识衡量了 12.5M 到 13B 参数的模型，并观察到它们在获取与利用知识方面存在差距和一定程度的鲁棒性问题，而更大的模型可以减少获取知识的差距，但利用知识的差距仍然存在。

May, 2023

通过附加训练将特定科学知识教授给大型语言模型

通过额外的训练，我们探索将专门的科学知识嵌入到 Llama 2 Large Language Model（LLM）中。研究结果表明，有效的知识整合需要从多个角度阅读文本，尤其是在指导性格式下。我们利用文本增强来解决专业文本稀缺的问题，包括风格转换和翻译。超参数优化被证明是至关重要的，不同尺寸的模型（7b、13b 和 70b）在额外的训练中表现出合理的结果。通过验证我们的方法，我们构建了一个包含 65,000 篇科学论文的数据集。尽管我们在部分嵌入知识方面取得了成功，但该研究凸显了将专业信息整合到 LLM 中的复杂性和局限性，并提出了进一步改进的领域。

Dec, 2023