基于语言模型的案例推理在逻辑谬误分类中的应用
本研究提出了逻辑谬误检测任务,并提供一个包含逻辑谬误的数据集 Logic 及其子集 LogicClimate,希望能通过一个理解论据基础逻辑结构的新型分类器来解决传统大型语言模型效果较差的问题,该任务可作为语言模型的新型推理挑战,并在打击错误信息传播方面发挥重要作用。
Feb, 2022
这篇论文研究了大型语言模型在逻辑推理中的自我验证能力,主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验,发现现有的大型语言模型在准确识别谬误的过程中可能存在困难,并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。
Nov, 2023
通过将自然语言逐步翻译成一阶逻辑,利用满足性模块理论求解器来可靠地检测逻辑谬误,并将输入分类为谬误或有效陈述,这种方法不需要训练数据或微调,并且在数据集上表现良好。
Apr, 2024
我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响,并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明,大型语言模型的行为可以通过认知科学中研究的启发式方式来解释,而背景学习和有监督微调都能提高模型在有效推理上的性能,尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。
Jun, 2024
大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能,但在某些复杂推理任务,特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU),我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务,我们成功构建了一个新的基于 GPT-4 的数据集 LFUD,只需少量人工参与。我们的广泛实验证明,我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力,还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。
Apr, 2024
研究探索了大型语言模型 (LLMs) 在多轮辩论中的理性思考能力,通过研究谬误论证对其逻辑推理表现的影响。使用 Logic Competence Measurement Benchmark (LOGICOM) 来评估 LLMs 对逻辑谬误的鲁棒性,发现 GPT-3.5 和 GPT-4 在通过推理改变观点方面有潜力,但在面对逻辑谬误时,比起使用逻辑推理,GPT-3.5 和 GPT-4 更容易错误地被说服。提供了包含逻辑和谬误论证对的数据集。
Aug, 2023
本文研究当前的大型语言模型是否存在逻辑推理的偏见,探讨三种主要偏见类型,并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集,发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。
Jun, 2023
本文提出了一种神经符号 CBE 方法,包括非参数记忆库和参数模型,能够对大型知识库中的问题进行问答,展示了在 ComplexWebQuestions 数据集上超越当前最新技术 11%的性能并显示出只需少量的人工标记示例,就能使用新案例的能力。
Apr, 2021