评估 ChatGPT 的推理能力
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
Apr, 2023
我们探讨了如何通过进行辩论式的对话来测试大型语言模型(LLM)的推理能力,以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明,尽管 ChatGPT 等模型一开始可以生成正确的解决方案,但在面对荒谬的无效论据时,它们无法保持对真理的信仰。
May, 2023
我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4(以下简称 ChatGPT)的推理能力进行评估,结果显示 ChatGPT 在因果推理方面存在困难,但通过使用手动 Chain of Thought(CoT)而不是 Zero Shot(ZS)和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致,并且指出 LLMs 需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。
Feb, 2024
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。
Feb, 2023
研究对 ChatGPT 的失误进行系统分析,提出了 11 类失误,并讨论了聊天机器人的风险、局限性和社会影响,目的是帮助研究人员和开发者提升未来的语言模型和聊天机器人。
Feb, 2023
本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明,ChatGPT 在因果推理方面存在严重的幻觉,主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外,在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响,针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系,对隐式的因果关系处理能力相对较差,对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。
May, 2023
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。
Feb, 2023
本研究通过探索 OpenAI 的 ChatGPT 在解决不同类型的物理问题方面的能力,发现 ChatGPT 在解决给定完整数据的问题上的成功率为 62.5%,而在未给定全部必要数据的实际问题上的准确率下降至 8.3%。该研究提出了关于如何利用增强学习模型的教材来提升 STEM 教育的启示,并为人工智能的优势和局限性提供了见解,对于旨在利用该技术的教育工作者以及研究人员来研究问题解决和决策制定中的人工智能与人类协作框架有所贡献。
Oct, 2023
该研究对 ChatGPT 在越南高中毕业考试的数学题目中的表现进行了全面的分析,探讨了无法正确回答问题的挑战。
Jun, 2023