ConstraintChecker：用于大型语言模型推理常识知识库的插件

Jan, 2024

ConstraintChecker：用于大型语言模型推理常识知识库的插件

ConstraintChecker: A Plugin for Large Language Models to Reason on Commonsense Knowledge Bases

Quyet V. Do, Tianqing Fang, Shizhe Diao, Zhaowei Wang, Yangqiu Song

TL;DR使用新开发的ConstraintChecker插件结合提示技术进行CSKB推理，通过引入关系约束来处理具有前所未有的隐式相关约束的知识实例，实验结果表明这种方法能够在各种提示方法上带来一致的改进。

Abstract

reasoning over commonsense knowledge bases (CSKB), i.e. cskb reasoning, has been explored as a way to acquire new commonsense knowledge based on reference knowledge in the original CSKBs and external prior knowle

发现论文，激发创造

自然语言推理的最新进展: 基准、资源和方法调查

本文概述了最近的基准测试、相关知识资源和最先进的学习和推理方法，以支持更好地理解自然语言理解领域。

Apr, 2019

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用ConceptNet中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

通感知识获取的高级语义学

本文介绍了一种称为Ascent的方法，用于自动构建具有先进表达能力、高精度和高召回率的常识知识库，并且超越了之前的三元组限制，同时捕获了具有子组和方面的复合概念，并通过语义方面完善了断言。

Nov, 2020

使用有效的评估数据集对常识知识库填充进行基准测试

本论文提出了一个新的大规模的数据集来评估神经模型在通识推理任务中的表现，并提出了一种基于图形的归纳式通识推理模型。实验结果表明，推广通识推理任务是一项困难的任务，训练时表现出高准确性的模型在评估集上表现不佳，与人类表现之间存在巨大的差距。

Sep, 2021

生成式知识促进常识推理

通过从语言模型中产生知识并将其作为额外输入用于回答问题，我们开发了一种生成知识提示方法，它不需要针对知识集成的任务特定监督，也不需要访问结构化的知识库，并在四个常识推理任务中提高了大规模、最先进模型的性能。这凸显了大规模语言模型作为提高常识推理的外部知识的灵活来源。

Oct, 2021

伟大的真理总是简单的：一种相当简单的知识编码器，用于增强预训练模型的常识推理能力

本文研究了如何通过增强预训练语言模型的知识感知图神经网络编码器来解决复杂的常识推理任务，并发现这种方法中的关系特征是主要的贡献因素。通过基于统计关系路径获取的特征设计一个简单的MLP-based知识编码器，不仅提高了PTMs的性能，而且还大大减少了编码CSKGs的参数。

May, 2022

利用可满足性辅助的语言模型与声明性提示

本文提出了一种新的满足性辅助语言建模方法，利用自然语言处理模型生成任务的声明性规范，使用现成的自动定理证明器进行推理并验证答案的正确性，在解决需要更复杂的规划与搜索任务时比基于编程范式的模型更加有效。

May, 2023

大型语言模型也是优秀的原型常识推理器

通过优化任务提示和生成多样化的链式推理和知识，该研究在ProtoQA数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Sep, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

ACCORD: 缩小常识可测性差距

通过受控的多跳反事实，我们提出了一个框架和基准套件 $ exttt{ACCORD}$，用于解开大规模语言模型（LLMs）的常识基础和推理能力。通过引入形式化元素到常识推理中，$ exttt{ACCORD}$可以明确控制和量化推理复杂性，超越典型的 1 或 2 跳。基准测试最先进的 LLMs（包括 GPT-4o（2024-05-13）、Llama-3-70B-Instruct 和 Mixtral-8x22B-Instruct-v0.1）显示性能仅随着适度扩展而降至随机机会，为改进留下了充足的余地。我们公布了此工作中测试的基准套件的排行榜，以及用于自动生成更复杂基准测试的代码。

Jun, 2024