APOLLO: 适应性预训练逻辑推理语言模型的简单方法

Dec, 2022

APOLLO: 适应性预训练逻辑推理语言模型的简单方法

APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning

Soumya Sanyal, Yichong Xu, Shuohang Wang, Ziyi Yang, Reid Pryzant...

TL;DR本文提出了一个适应性预训练语言模型 APOLLO，使用特定的逻辑推理关键词来选择维基百科的子集进行预训练，使用自我监督损失函数进行训练，无需特定的任务格式，与基线模型相比，在逻辑推理数据集上表现相当或更好。

Abstract

logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of →

logical reasoning language models apollo wikipedia self-supervised loss functions

发现论文，激发创造

APOLLO: 一种优化的长文数值推理训练方法

提出了 APOLLO 来改进长格式数字推理框架，采用数值感知负采样策略来使检索器对关键数字事实更具有区分度，并基于程序执行结果的一致性设计了一致性强化学习和目标程序增强策略，实验结果验证了其有效性。

Dec, 2022

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

LogiGAN: 基于对抗预训练的逻辑推理学习

LogiGAN 是一种无监督的、改进语言模型逻辑推理能力的对抗预训练框架，采用检测启发式方法自动识别大规模文本语料库中的逻辑推理现象，并通过敌对的生成 - 验证者架构来模拟学习思考过程的促进作用。实验表明，采用 LogiGAN 预训练后的语言模型在需要普遍推理能力的 12 个数据集上表现明显优于基线，揭示了逻辑在广泛推理中的基础作用以及 LogiGAN 的有效性。

May, 2022

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE，并训练一个经过指令微调的语言模型 LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

学习作为推理：可训练的自然逻辑定理证明器用于自然语言推理

论文介绍了一种基于逆推的推理方法 (abduction)，该方法在自然语言推理中的应用可以有效地提高定理证明器的性能，提高处理语义关系的精度。

Oct, 2020

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023