大型语言模型与可控制的工作记忆

Nov, 2022

大型语言模型与可控制的工作记忆

Large Language Models with Controllable Working Memory

Daliang Li, Ankit Singh Rawat, Manzil Zaheer, Xin Wang, Michal Lukasik...

TL;DR本文研究了大型语言模型的可控性和鲁棒性，并提出了一种新的知识感知微调方法（KAFT），可通过引入反事实和无关语境来增强模型的可控性和鲁棒性。该方法适用于各种模型构架和规模。

Abstract

large language models (LLMs) have led to a series of breakthroughs in natural language processing (NLP), owing to their excellent understanding and generation abilities. Remarkably, what further sets these models apart is the massive amounts of →

large language models controllability robustness world knowledge knowledge aware finetuning

发现论文，激发创造

大型知识模型：视角与挑战

人类对世界的理解与我们的感知和认知密切相关，其中人类语言作为世界知识的重要承载者之一。本文通过 “知识” 这个视角来探索大型模型，并讨论符号知识如何增强大型语言模型以及大型语言模型如何扩展传统符号知识基础。考虑到人类知识的复杂性，我们倡导创建专门管理多样化知识结构的大型知识模型，并提出了五个 “A” 原则来区分 LKM 的概念。

Dec, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型是否知道自己不知道的？

本研究评估了大语言模型的自我认知能力，通过引入自主问答数据集和一种自动化方法来检测不能回答的问题，研究发现大语言模型具有一定的自我认知能力，可以通过上下文学习和指导调整进一步提高其自我认知。但是，研究还发现，这些模型与人类在识别知识限制方面存在明显差距。

May, 2023

语言模型在规模上是否能充当知识库？

大型语言模型在理解和生成复杂查询方面表现出了卓越的能力，但它们在存储、回忆和推理大规模结构化知识方面的有效性仍有待研究，本研究发现虽然大型语言模型有望作为大规模知识库灵活地检索和回答问题，但需要增强它们的推理能力以充分发挥潜力。

Feb, 2024

基于知识增强的大型语言模型个性化上下文查询建议

通过与用户与搜索引擎的交互历史相关的上下文，我们提出了一种新颖且通用的方法，用于个性化输出，这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法，生成了在上下文中更相关、个性化和有用的查询建议。

Nov, 2023

大型语言模型中的用户可控知识融合：平衡创造性和幻觉

本文提出了一种创新的用户可控机制，通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签，综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度，用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度，通过广泛的实验验证了该方法的适用性和有效性，强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。

Jul, 2023

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

LLM2KB：利用调整指导上下文感知的大型语言模型构建知识库

使用大型语言模型构建知识库的 LLM2KB 系统有不同于基础模型的参数紧凑的注入模型，通过 LoRA 技术调整指令以便使用 Wikipedia 页面上下文实体，并在 LM-KBC 挑战中取得了 0.6185 的平均 F1 得分。

Aug, 2023

知识感知的大语言模型微调

使用知识感知微调（KnowTuning）方法解决大型语言模型在自然语言处理任务中的知识感知不足问题，并在通用和医疗问答数据集上进行了广泛的实验证明了其有效性，并展示了其在未知问答数据集上的泛化能力。

Feb, 2024

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024