从数据到常识推理：运用大型语言模型进行可解释人工智能

Jul, 2024

从数据到常识推理：运用大型语言模型进行可解释人工智能

From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI

Stefanie Krause, Frieder Stolzenburg

TL;DR通过研究LLMs能力在推理和可解释性方面，我们证明LLMs在各种QA任务上能够合理推理，优于人类，并且GPT-3.5在决策解释方面表现出色。

Abstract

commonsense reasoning is a difficult task for a computer, but a critical skill for an artificial intelligence (AI). It can enhance the explainabi

发现论文，激发创造

自然语言推理的最新进展: 基准、资源和方法调查

本文概述了最近的基准测试、相关知识资源和最先进的学习和推理方法，以支持更好地理解自然语言理解领域。

Apr, 2019

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

ChatGPT是一个具有知识但缺乏经验的求解器：大型语言模型中常识问题的研究

研究LLMs和GPTs在处理常识问题中的表现，实验结果表明：(1)GPTs在通识任务中可以取得较好的QA准确率，但仍然较难处理某些类型的知识。(2)ChatGPT具有常识知识，可以利用知识提示正确生成大部分常识知识。(3) ChatGPT是一名经验不丰富的常识问题解决者，不能准确地识别回答一个特定问题所需的常识知识，这需要更好的常识引导机制，如遵循指示、更好的常识引导等。

Mar, 2023

大型语言模型也是优秀的原型常识推理器

通过优化任务提示和生成多样化的链式推理和知识，该研究在ProtoQA数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Sep, 2023

XplainLLM：理解LLM决策的QA解释数据集

大语言模型（LLMs）在自然语言理解任务中取得了显著进展，但是理解它们的决策过程仍然是一个巨大的挑战。本文通过引入一种新的解释数据集，将知识图谱（KGs）与问答（QA）任务以一种新颖的方式集成，为这一过程带来了一定的透明度。通过定量和定性评估，我们展示了我们的数据集提高了LLMs的上下文学习能力，并增强了它们的可解释性。我们的工作通过深入理解LLMs的决策过程，使其更加透明，从而对研究人员和从业人员更可靠，为可解释AI领域做出贡献。

Nov, 2023

LLMCheckup: 通过可解释性工具对大型语言模型进行对话式检测

通过多种解释工具，包括对话式解释和多提示解析策略，LLMCheckup提供了一种易于操作的方法，使用户能够与大规模语言模型进行互动，并生成自我解释和意图识别的解释。

Jan, 2024

TAT-LLM：用于离散推理表格和文本数据的专用语言模型

我们开发了一个TAT-LLM语言模型来针对特定任务，该模型在FinQA、TAT-QA和TAT-DQA基准测试中表现优于所有基准模型，包括先前的最佳微调模型和像GPT-4这样的大规模语言模型。

Jan, 2024

合理的理由下的正确性：基于大型语言模型对可验证的常识知识图谱问题回答的研究

基于知识图谱问答的常识推理现有方法困扰于虚构问题，本研究提出基于正确原因的常识知识图谱问答方法（R3），通过可验证的推理过程，减少虚构和推理错误，展示其在问题回答、主张验证和偏好匹配等任务中的优越性。

Mar, 2024

通过代码从LLMs中引出更好的多语言结构化推理

大型语言模型在多语言结构推理和解释数据集xSTREET上表现出进展，通过使用机器翻译增强具有多语言评论的代码数据集，以及在推理时使用包含逐步代码原语的提示结构，提供了改善多语言性能的两种方法。

Mar, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024