测量推断和规则理解能力的逻辑任务

Nov, 2022

测量推断和规则理解能力的逻辑任务

Logical Tasks for Measuring Extrapolation and Rule Comprehension

Ippei Fujisawa, Ryota Kanai

TL;DR通过提出逻辑任务的概念，该研究从更高的角度说明了近期大规模模型在算术推理中的局限性，并探讨了解决逻辑任务的方向和需要具备的系统需求。

Abstract

logical reasoning is essential in a variety of human activities. A representative example of a logical task is mathematics. Recent large-scale models trained on large datasets have been successful in various fiel

logical reasoning mathematics logical tasks inductive biases system requirements

发现论文，激发创造

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE，并训练一个经过指令微调的语言模型 LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

神经模型的数学推理能力分析

该研究针对数学领域中的推理、学习、应用规则等独特挑战，提出了一个数学问题套件的任务，用于测试和评估神经架构等系统的性能、能力和失效模式。通过生成数据并运用序列到序列的最强模型，可以从不同角度评估模型在数学问题解决和知识推广方面的能力。

Apr, 2019

从机器学习到机器推理

通过代数操作简单的学习系统来建立推理能力，而非试图在机器学习系统和复杂的推理机制之间建立联系。

Feb, 2011

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

自然语言作为知识表示的逻辑推理：一项调查

本文综述了一种新的逻辑推理范式，它使用自然语言作为知识表示（并使用预训练语言模型作为推理器），包括逻辑推理的哲学定义和分类、新范式的优势、基准和方法、新范式的挑战、未来的可取任务和方法以及与相关 NLP 领域的关系。这种新范式具有很好的前景，因为它不仅可以缓解正式表示的许多挑战，而且还对端到端的神经方法具有优势。

Mar, 2023

深度学习在数学推理中的应用概述

本文综述了过去十年在数学推理和深度学习交叉领域中的关键任务、数据集和方法，评估了现有的基准测试和方法，并讨论了该领域的未来研究方向。

Dec, 2022

LSAT：复杂推理的进展和挑战

在本文中，我们通过系统地研究律师入学考试的三项具有挑战性并且领域通用的任务，包括分析推理、逻辑推理和阅读理解，进一步推进了复杂推理。我们提出了一个混合推理系统，将这三个任务进行整合，并在律师入学考试中获得了令人印象深刻的整体表现。实验结果表明，我们的系统具有一定的复杂推理能力，特别是基本阅读理解和具有挑战性的逻辑推理能力。进一步分析还显示了将预训练模型与任务专用的推理模块相结合，以及将符号知识整合到复杂推理的离散可解释推理步骤中的有效性。我们进一步展示了未来潜在的方向，如无监督符号知识提取、模型可解释性、小样本学习和复杂推理的全面基准。

Aug, 2021