扰动证据下的推断：探测大型语言模型的学生模拟能力

May, 2023

扰动证据下的推断：探测大型语言模型的学生模拟能力

Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models

Shashank Sonkar, Richard G. Baraniuk

TL;DR本文探讨了大型语言模型（Large Language Models）能否在扭曲事实的情况下进行逻辑推理，即称为扭曲证据下的演绎（Deduction under Perturbed Evidence，DUPE）。通过在 StrategyQA 数据集中进行实验，发现即使是最先进的 GPT 模型在扭曲事实的情况下也难以进行推理，准确率下降了 45％，研究结果对理解大型语言模型在实际应用中的表现具有实际意义。

Abstract

We explore whether large language models (LLMs) are capable of logical reasoning with distorted facts, which we call Deduction under Perturbed Evidence (DUPE). DUPE presents a unique challenge to LLMs since they typically rely on their parameters, which encode mostly accurate informati

large language models logical reasoning deduction under perturbed evidence manipulated facts strategyqa dataset

发现论文，激发创造

在 GSM8K 上达到超过 97%：深入理解问题使 LLMs 成为完美的推理者

我们提出了一种名为深度理解问题（DUP）提示的新型提示策略，用于增强 LLMs 对问题的全面理解。实验结果表明，DUP 提示在各个数据集上明显优于零 - shot CoT，并在 SVAMP（90.4% 至 94.2%）和 GSM8K（94.6% 至 97.1%）方面取得了最新的成果。

Apr, 2024

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

由谬误而推理：通过逻辑谬误理解增强大型语言模型的逻辑推理

大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能，但在某些复杂推理任务，特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU)，我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务，我们成功构建了一个新的基于 GPT-4 的数据集 LFUD，只需少量人工参与。我们的广泛实验证明，我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力，还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。

Apr, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

大语言模型在回答清楚的问题方面非常有效，但面对模糊查询时会表现不可预测且产生错误的输出，因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架，通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力，并对不同的语言模型进行系统评估。结果发现，像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆（BC）来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后，我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力，从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。

Oct, 2023

利用 LLM 中的提示克服复杂教育文本数据中的不平衡

本文研究了如何利用具有断言的大型语言模型（LLMs）来缓解教育数据集中的不平衡问题，结果显示，与传统的机器学习（ML）模型相比，具有断言的 LLMs 在认知参与水平上明显优于传统模型，并且针对特定子集的敏感性研究表明，将断言加入到 LLM 中可提高其性能约 11.94%。

Apr, 2024

预先训练的语言模型是否具备演绎推理能力？

本文对预训练语言模型的可学习演绎性能进行了全面评估，发现该模型存在推理规则泛化不足、对表面形式的修改表现不稳定、在推理过程中出现遗忘现象等问题，说明预训练语言模型对于演绎推理的表现仍不可靠，远未达到人类的推理能力。

Oct, 2022

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

人类和大型语言模型在演绎推理中的推理策略比较

该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估，利用认知心理学原理探讨了模型使用的推理策略。结果发现，大型语言模型展示出类似于人类的推理模式，包括 “解释跟踪” 和 “链式构建” 等策略。此外，该研究表明模型的架构和规模显著影响其首选的推理方法，较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性，这一区别强调了该领域需要更为精细的评估程序。

Feb, 2024