语言模型是如何在上下文中绑定实体的？

Oct, 2023

语言模型是如何在上下文中绑定实体的？

How do Language Models Bind Entities in Context?

Jiahai Feng, Jacob Steinhardt

TL;DR通过分析语言模型表示法，我们识别出绑定 ID 机制：一种在足够大的 Pythia 和 LLaMA 系列模型中观察到的解决绑定问题的通用机制。我们使用因果干预证明语言模型的内部激活通过将绑定 ID 向量附加到相应的实体和属性上来表示绑定信息。我们进一步展示，绑定 ID 向量形成一个连续的子空间，其中绑定 ID 向量之间的距离反映了它们的可辨性。总体而言，我们的结果揭示了语言模型在上下文中表示符号知识的可解释策略，为理解大规模语言模型中通用的上下文推理迈出了一步。

Abstract

To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a "green square" and a "blue circle", LMs must bind the shapes to the

language models in-context information binding id mechanism lm representations symbolic knowledge

发现论文，激发创造

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024

语言模型中事实性回忆机制的表征

利用头部归因方法控制模型行为，将模型表现局部化，并提供了一种概念验证方法，展示如何在运行时动态地控制模型行为。

Oct, 2023

嵌入中藏着什么？无论是什么嵌入，玫瑰都会闻起来一样香吗？

大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力，被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解，即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”，这对自然语言处理、计算机视觉、代码辅助等领域的应用似乎足够了。然而，这种基于不完全和嘈杂数据构建的 “几何” 理解使得 LLMs 不可靠、难以推广，并且缺乏推理能力和解释能力，类似于几十年前启发式专家系统面临的挑战。为了克服这些局限性，本研究建议将 LLMs 与包括专家系统中使用的符号 AI 元素在内的 “代数” 知识表示集成起来。这种集成旨在创建大型知识模型 (LKMs)，它们不仅具备以第一原理为基础的 “深度” 知识，而且具备推理和解释的能力，模仿人类专家的能力。为了安全有效地利用生成式 AI 的全部潜力，需要从 LLMs 转向更全面的 LKMs，这是一种新的范式转变。

Jun, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

语言嵌入是否涵盖了规模？

本研究探讨了预训练语言模型在把握物体的标量数量方面的表现情况及其在常识推理中的不足，发现语言模型能够捕获相当数量的关于数量的信息，但性能受上下文信息和数字知识的影响，文中提出了一个简单的标准化数字的方法，具有显著的结果改进。

Oct, 2020

语言模型作为代理模型

语言模型仅通过文本训练，但仍然可以推断和表示产生语境的人的代理人属性，包括细粒度的交际意图和抽象的信仰和目标，并被用于构建通信和行为系统。

Dec, 2022

大型语言模型是上下文语义推理者而非符号推理者

本文研究了大型语言模型 LLMs 的推理能力，通过对语义从推理过程中的剥离进行实验，发现语义在 LLMs 的推理中起着至关重要的作用，但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角，并呼吁深入研究 LLMs 的推理机制。

May, 2023

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024