基于语言模型的案例推理在逻辑谬误分类中的应用

Jan, 2023

基于语言模型的案例推理在逻辑谬误分类中的应用

Case-Based Reasoning with Language Models for Classification of Logical Fallacies

Zhivar Sourati, Filip Ilievski, Hông-Ân Sandlin, Alain Mermoud

TL;DR提出了基于案例推理和语言建模技术的方法，探讨在检测 Web 上的逻辑谬误方面提高模型精确性和泛化能力的策略，并在实验中证实关键识别案例在模型精确性中具有重要作用。

Abstract

The ease and the speed of spreading misinformation and propaganda on the Web motivate the need to develop trustworthy technology for detecting fallacies in natural language arguments. However, state-of-the-art

misinformation propaganda logical fallacy classification case-based reasoning language modeling

发现论文，激发创造

逻辑谬误检测

本研究提出了逻辑谬误检测任务，并提供一个包含逻辑谬误的数据集 Logic 及其子集 LogicClimate，希望能通过一个理解论据基础逻辑结构的新型分类器来解决传统大型语言模型效果较差的问题，该任务可作为语言模型的新型推理挑战，并在打击错误信息传播方面发挥重要作用。

Feb, 2022

深入探究大型语言模型在逻辑推理中的自我验证能力

这篇论文研究了大型语言模型在逻辑推理中的自我验证能力，主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验，发现现有的大型语言模型在准确识别谬误的过程中可能存在困难，并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。

Nov, 2023

NL2FOL：将自然语言翻译为一阶逻辑，用于检测逻辑谬误

通过将自然语言逐步翻译成一阶逻辑，利用满足性模块理论求解器来可靠地检测逻辑谬误，并将输入分类为谬误或有效陈述，这种方法不需要训练数据或微调，并且在数据集上表现良好。

Apr, 2024

大型语言模型作为软性推理器的系统分析：以三段论推理为例

我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调都能提高模型在有效推理上的性能，尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。

Jun, 2024

由谬误而推理：通过逻辑谬误理解增强大型语言模型的逻辑推理

大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能，但在某些复杂推理任务，特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU)，我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务，我们成功构建了一个新的基于 GPT-4 的数据集 LFUD，只需少量人工参与。我们的广泛实验证明，我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力，还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。

Apr, 2024

LLM 对逻辑谬误的容易受到性如何？

研究探索了大型语言模型 (LLMs) 在多轮辩论中的理性思考能力，通过研究谬误论证对其逻辑推理表现的影响。使用 Logic Competence Measurement Benchmark (LOGICOM) 来评估 LLMs 对逻辑谬误的鲁棒性，发现 GPT-3.5 和 GPT-4 在通过推理改变观点方面有潜力，但在面对逻辑谬误时，比起使用逻辑推理，GPT-3.5 和 GPT-4 更容易错误地被说服。提供了包含逻辑和谬误论证对的数据集。

Aug, 2023

使用 NeuBAROCO 评估大型语言模型的三段论推理能力和类人偏见

本文研究当前的大型语言模型是否存在逻辑推理的偏见，探讨三种主要偏见类型，并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集，发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。

Jun, 2023

基于案例推理的自然语言查询知识库

本文提出了一种神经符号 CBE 方法，包括非参数记忆库和参数模型，能够对大型知识库中的问题进行问答，展示了在 ComplexWebQuestions 数据集上超越当前最新技术 11％的性能并显示出只需少量的人工标记示例，就能使用新案例的能力。

Apr, 2021

人类与语言模型中演绎推理的系统比较

语言模型在逻辑推理中能够模仿人类偏见，并在某些情况下克服它们。

Nov, 2023

多任务基于指令提示的谬误识别

此研究采用基于 T5 模型的多任务学习，解决了识别多种领域和类型的 28 种谬误的问题，并研究了模型大小、提示选择和注释质量等因素对性能的影响。

Jan, 2023