量化 LLM 中上下文推理效应和记忆效应

May, 2024

量化 LLM 中上下文推理效应和记忆效应

Quantifying In-Context Reasoning Effects and Memorization Effects in LLMs

Siyu Lou, Yuntian Chen, Xiaodan Liang, Liang Lin, Quanshi Zhang

TL;DR我们提出了一个公理系统来定义和量化大型语言模型（LLM）用于语言生成的精确记忆和上下文推理效应，并将这些效应形式化为 LLM 编码的令牌 / 词之间的非线性相互作用。实验表明，记忆效应和上下文推理效应的明确区分使得可以直观地检查 LLMs 编码的详细推理模式。

Abstract

In this study, we propose an axiomatic system to define and quantify the precise memorization and in-context reasoning effects used by the

axiomatic system precise memorization in-context reasoning memorization effects inference patterns

发现论文，激发创造

大型语言模型记忆机制的多角度分析

大语言模型（LLMs）在各个领域展示了前所未有的性能，但其特殊行为之一 —— 记忆化 —— 仍缺乏解释，本研究通过多个角度全面探讨记忆化现象及其动态，并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系，以及不同记忆化得分下句子的嵌入分布和解码动态，揭示了当模型开始生成记忆化或非记忆化句子时的边界效应，最后通过训练 Transformer 模型预测不同模型的记忆化，证明了通过上下文预测记忆化的可行性。

May, 2024

大型语言模型是上下文语义推理者而非符号推理者

本文研究了大型语言模型 LLMs 的推理能力，通过对语义从推理过程中的剥离进行实验，发现语义在 LLMs 的推理中起着至关重要的作用，但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角，并呼吁深入研究 LLMs 的推理机制。

May, 2023

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

大型语言模型的推理：一项综述

扩大语言模型的参数规模到数十亿个参数开辟了上下文学习的可能性，允许对模型进行指导调整和少样本学习，从而在模型未经过专门训练的任务上取得了突破性的语言任务性能，如翻译、摘要和问答。本文回顾了基于提示的推理领域的迅速发展。我们的分类法识别出生成、评估和控制多步推理的不同方法。我们对核心方法和开放问题进行了深入研究，并提出了近期的研究议程。最后，我们强调了推理和基于提示学习之间的关系，并讨论了推理、顺序决策过程和强化学习之间的关系。我们发现通过合理使用提示可以实现自我改进、自我反思和推理过程的一些元认知能力。从使用 LLMs 进行推理到 LLMs 进行推理的真正自我改进和自我推理仍然是未来的工作。

Jul, 2024

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM 图推理能否超越模式记忆泛化？

大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力，最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而，对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式，仍未得到很好的探究。因此，我们提出了 NLGift 基准测试，这是 LLM 图推理可推广性的一个评估套件：LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式，提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验，结果显示虽然对简单模式（语义、数值）的推广相对令人满意，但 LLMs 难以在推理和真实世界模式下进行推广，对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略，发现对于真实世界任务来说，后训练对齐是最有希望的，但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。

Jun, 2024

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024