LLM 对逻辑谬误的容易受到性如何?
大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能,但在某些复杂推理任务,特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU),我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务,我们成功构建了一个新的基于 GPT-4 的数据集 LFUD,只需少量人工参与。我们的广泛实验证明,我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力,还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。
Apr, 2024
通过对 LLMs 进行评估,本研究以逻辑谬误为主题,并说明了适用 LLMs 的局限性及其在数字误导干预中的应用。
Apr, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
大型语言模型(LLMs)的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现,这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验,探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异,但总体性能并未提高。此外,我们还发现性能与展示格式和内容以出人意料的方式相互作用,与人类表现有所不同。总的来说,我们的结果表明 LLMs 具有独特的推理偏见,其只能部分预测人类的推理表现。
Sep, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
这篇论文研究了大型语言模型在逻辑推理中的自我验证能力,主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验,发现现有的大型语言模型在准确识别谬误的过程中可能存在困难,并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。
Nov, 2023
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力,我们在 Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量 LLMs 能力的任务,包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平,并且合并不同 LLMs 的预测可以显著提高性能,甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。
Mar, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024