ChatGPT 是否能捍卫真相？自动辩证评估揭示了大语言模型推理中的不足

May, 2023

ChatGPT 是否能捍卫真相？自动辩证评估揭示了大语言模型推理中的不足

Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits LLMs' Deficiencies in Reasoning

Boshi Wang, Xiang Yue, Huan Sun

TL;DR我们探讨了如何通过进行辩论式的对话来测试大型语言模型（LLM）的推理能力，以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明，尽管 ChatGPT 等模型一开始可以生成正确的解决方案，但在面对荒谬的无效论据时，它们无法保持对真理的信仰。

Abstract

We explore testing the reasoning ability of large language models (LLMs), such as ChatGPT, by engaging with them in a debate-like conversation

large language models debate-like conversation reasoning ability evaluation framework commonsense

发现论文，激发创造

ChatGPT 在声明验证背景下的推理能力评估

我们提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4（以下简称 ChatGPT）的推理能力进行评估，结果显示 ChatGPT 在因果推理方面存在困难，但通过使用手动 Chain of Thought（CoT）而不是 Zero Shot（ZS）和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致，并且指出 LLMs 需要在高风险的实际任务（如宣称验证）中进行更严格的评估，以区分炒作和实际能力。

Feb, 2024

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

一个多任务、多语言、多模态的 ChatGPT 推理、幻觉和交互评估

本文提出了一个评估 ChatGPT 等交互式 LLM 的框架，使用公开数据集进行多任务、多语言和多模态方面的评估，发现 ChatGPT 能够生成多模态内容，但是其推理能力较差，存在幻觉问题，但通过 “提示工程” 可以与人类协作，提高性能。

Feb, 2023

聊天 GPT 在对话中的话语分析潜力：实证研究

本研究探讨了 ChatGPT 在话语语篇分析中的能力，特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链（COT）方法，发现 ChatGPT 对于话题分割有较好的表现，但在话语关系识别和话语分析等较难的任务中有待提高。

May, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

评估 ChatGPT 的推理能力

ChatGPT 应用于推理任务时产生的逻辑错误的量化研究，包括逻辑错误的分类和基于大型语言模型产生的推理错误的标注答案。

Oct, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

评估 ChatGPT 在回答复杂问题时作为问答系统的有效性

评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力，我们提出了一个框架来评估其功能和可靠性，并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。我们发现 LLM 模型的一些常见问题。

Mar, 2023

评估 ChatGPT 和 GPT-4 的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估

本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估，发现 DALL-E 2 在空间推理方面有较好表现，而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策，在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。

Feb, 2023