Feb, 2024

ChatGPT 在声明验证背景下的推理能力评估

TL;DR我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4(以下简称 ChatGPT)的推理能力进行评估,结果显示 ChatGPT 在因果推理方面存在困难,但通过使用手动 Chain of Thought(CoT)而不是 Zero Shot(ZS)和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致,并且指出 LLMs 需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。