打下基础先？研究原子技能对复杂推理任务的普遍化

Mar, 2024

打下基础先？研究原子技能对复杂推理任务的普遍化

Laying the Foundation First? Investigating the Generalization from Atomic Skills to Complex Reasoning Tasks

Yuncheng Huang, Qianyu He, Yipei Xu, Jiaqing Liang, Yanghua Xiao

TL;DR目前的语言模型在基本推理方面已经展示了它们的能力，但在需要结合原子技能的更复杂的推理任务上却存在困难，比如需要算术和单位转换等技能的数学问题。本文首先提出了一个探测框架，以研究原子技能是否能自主泛化到复杂推理任务。然后，引入了分层课程学习训练策略来实现更好的技能泛化。在我们的实验中，我们发现原子技能无法自主泛化到组合任务。通过利用分层课程学习，我们成功诱导了泛化，在复杂推理任务上显著提高了开源语言模型的性能。有希望的是，这种技能的泛化在跨数据集和跨领域的场景中也是有效的。复杂推理也有助于增强原子技能。我们的研究结果为设计更好的复杂推理任务训练策略提供了有价值的指导。

Abstract

Current language models have demonstrated their capability to develop basic reasoning, but struggle in more complicated reasoning tasks that require a combination of →

language models reasoning tasks atomic skills hierarchical curriculum learning complex reasoning

发现论文，激发创造

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于 “反事实” 任务变体的评估框架，在一系列 11 项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

基模型推理综述

发展基础模型的探索性研究目前取得了最新的进展，其涉及推理任务、多模态学习和自主智能代理等未来研究方向，为人工智能的发展做出了贡献。

Dec, 2023

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

统一结构推理和语言模型预训练，用于复杂推理

本文提出通过结构化的推理和语言模型预训练来模拟上下文中的结构化知识，并对复杂理解和知识图谱推理任务进行了实验，表明这种方法可以有效提高语言和知识图谱模式的复杂推理能力。

Jan, 2023

自动组合表示变换以促进泛化

介绍了一种广泛适用的形式主义，即组合问题图，以解决机器学习中不利于推广的问题，提出了组合泛化问题并引入组合递归学习器，该框架适用于学习算法过程以组合表示转换，从而产生能够进行推理的学习器。

Jul, 2018

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

从复杂到简单：揭示小型语言模型推理的认知树

通过使用认知树 (CogTree) 框架，我们揭示了语言模型的认知推理能力，并证明可以使用明显较小的语言模型 (<=7B) 达到与 GPT-3.5 相当的性能水平，而 GPT-3.5 具有更多的参数（175 亿）。

Nov, 2023

大型语言模型不是抽象推理器

本论文评估了最新的 Large Language Models 在抽象推理任务上的表现，并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因，并提出了一个新的基准，用于评估自然语言处理中的抽象推理任务。

May, 2023