ChatGPT 是否能捍卫真相?自动辩证评估揭示了大语言模型推理中的不足
我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4(以下简称 ChatGPT)的推理能力进行评估,结果显示 ChatGPT 在因果推理方面存在困难,但通过使用手动 Chain of Thought(CoT)而不是 Zero Shot(ZS)和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致,并且指出 LLMs 需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。
Feb, 2024
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
本文提出了一个评估 ChatGPT 等交互式 LLM 的框架,使用公开数据集进行多任务、多语言和多模态方面的评估,发现 ChatGPT 能够生成多模态内容,但是其推理能力较差,存在幻觉问题,但通过 “提示工程” 可以与人类协作,提高性能。
Feb, 2023
本研究探讨了 ChatGPT 在话语语篇分析中的能力,特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链(COT)方法,发现 ChatGPT 对于话题分割有较好的表现,但在话语关系识别和话语分析等较难的任务中有待提高。
May, 2023
本文通过评估 ChatGPT 在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
评估使用自身知识作为问答系统的 ChatGPT 在回答复杂问题方面的能力,我们提出了一个框架来评估其功能和可靠性,并使用 CheckList 和 8 个现实世界的基于 KB 的问答数据集进行了测试。 我们发现 LLM 模型的一些常见问题。
Mar, 2023
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
Apr, 2023
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规模扩大及答案具备的挑战方面存在困难。
Feb, 2023