基于变换器的语言模型在描述逻辑ALCQ中的推理能力

Oct, 2024

基于变换器的语言模型在描述逻辑ALCQ中的推理能力

Transformer-based Language Models for Reasoning in the Description Logic ALCQ

Angelos Poulis, Eleni Tsalapati, Manolis Koubarakis

TL;DR本研究针对现有评估基于变换器的语言模型的逻辑推理能力方法过于简单的问题，通过构建包含384,000个示例的自然语言数据集DELTA$_D$，在推理深度和语言复杂性上进行扩展。研究表明，经过我们的数据集微调的DeBERTa模型在蕴涵检查任务中表现出色，而GPT系列模型在少量样本下也能显著提升表现，展示了新的推理能力。

Abstract

Recent advancements in Transformer-based Language Models have sparked research into their Logical Reasoning capabilities. Most of the benc

发现论文，激发创造

通过自然语言可满足性推动变形金刚规则推理的极限

本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集，以研究transformer模型的推理能力，发现这些模型在解决困难的NLSat问题方面表现出非常强的能力，但仍然存在限制，包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。

Dec, 2021

RobustLR: 评估演绎推理中对逻辑扰动的稳健性

本文通过提出的RobustLR数据集，对当前在英语自然语言逻辑规则库上执行演绎推理的Transformer模型的鲁棒性进行了评估，结果展示这些模型在面临最小改动的逻辑规则库的情况下表现不一致，难以学习逻辑否定和逻辑联合运算符，从而揭示出这些基于推导式推理的自然语言处理模型的一些缺陷。

May, 2022

Transformer能否在自然语言的片段中进行推理？

本文对深度学习在自然语言处理（NLP）方面的最新应用进行了调查研究，发现transformer-based language models在检测受控自然语言片段的有效推理方面表现出明显的过拟合问题，未能获取主导推理的逻辑原则。

Nov, 2022

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集LogiGLUE，并训练一个经过指令微调的语言模型LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

基于Transformer的描述逻辑上下文推理

通过使用描述逻辑知识库构建一个合成的自然语言问答数据集，本研究评估了基于transformer的模型在推理能力、合成语境和知识库相关的问题上的表现，并展示了模型在训练过程中对不同推理深度的泛化能力。

Nov, 2023

不是所有大型语言模型（LLM）都屈服于“逆转诅咒”：BERT和GPT模型推理能力的比较研究

在这项研究中，我们探讨了大规模语言模型在逻辑推理方面的局限性，发现ChatGPT等自回归解码器训练模型在'A是B'的任务中往往无法学习到'B是A'，从而揭示了它们在逻辑演绎上的失败。我们的研究不仅对双向语言模型BERT进行了评估，发现其对逆转诅咒具有免疫能力，还探索了医学知识图谱构建中的复杂演绎推理能力。尽管在处理两个集合（并集/交集）的情况下编码器和解码器模型表现良好，但在涉及三个集合的操作（并集、交集的各种组合）时，它们遇到了困难。因此，选择BERT和GPT模型应该根据任务的具体要求和性质，充分利用它们在双向上下文理解和序列预测方面的优势。

Dec, 2023

评估仅编码器Transformer模型的逻辑推理能力

本文研究了仅编码器变换器语言模型在逻辑规则推理方面的能力，并通过多个数据集的实验结果表明，这些语言模型在确定逻辑有效性上取得了合理的程度，但在迁移能力方面存在困难，可能是学习了特定数据集的特征而不是一般的能力，同时通过分层探测实验证明假设分类任务主要是通过较高层解决的。

Dec, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024