聊天式 GPT 与人类读者在推理方面的互补优势:来自英文阅读理解的证据
我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在 Twitter 上流传的谣言的真实数据集对 GPT-3.5-Turbo 和 GPT-4(以下简称 ChatGPT)的推理能力进行评估,结果显示 ChatGPT 在因果推理方面存在困难,但通过使用手动 Chain of Thought(CoT)而不是 Zero Shot(ZS)和 ZS CoT 方法可以在一定程度上缓解这一问题。我们的研究为 ChatGPT 的推理过程不太可能与人类类似的推理过程相一致,并且指出 LLMs 需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。
Feb, 2024
本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明,ChatGPT 在因果推理方面存在严重的幻觉,主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外,在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响,针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系,对隐式的因果关系处理能力相对较差,对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。
May, 2023
本研究通过 Coh-Metrix 比较了 ChatGPT 和 CIE 学生在叙事主题上的写作表现,结果表明,在初始版本中,ChatGPT 在叙述性、词汇具体性和指代连贯性方面优于人类作家,但在句法简单性和深度连贯性方面劣于人类作家。经过多次修订后,ChatGPT 在句法简单性方面得到了改善,但在深度连贯性方面仍远不如 CIE 学生的写作。另外,讨论组成分的相关性分析表明,ChatGPT 和人类作家的叙事性与指代连贯性呈正相关,但各组内的相关性不同。
Mar, 2023
本研究评估了 GPT-4 在逻辑推断任务中的性能,包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示,尽管 GPT-4 表现优异,但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。
Apr, 2023
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
我们探讨了如何通过进行辩论式的对话来测试大型语言模型(LLM)的推理能力,以此来衡量模型是否真正理解了问题的本质。对多个复杂的推理测试进行实验表明,尽管 ChatGPT 等模型一开始可以生成正确的解决方案,但在面对荒谬的无效论据时,它们无法保持对真理的信仰。
May, 2023
本研究旨在探究 ChatGPT 在贝叶斯推理中的数学问题解决能力。研究灵感源自 2006 年 Zhu 和 Gigerenzer 的研究,提出了一个问题:儿童能以贝叶斯方式进行推理吗?通过一组 10 个贝叶斯推理问题的实验,结果揭示了儿童有效运用贝叶斯原理进行推理的能力取决于信息的良好结构化表示。本文将同样的一组 10 个贝叶斯推理问题提供给 ChatGPT,结果显示 ChatGPT 能够给出所有问题的正确解答。
Aug, 2023
我们调查了 ChatGPT 的可靠性和逻辑一致性。发现虽然 ChatGPT 在语言理解能力方面有所提高,但它仍经常无法生成逻辑上正确的预测;因此,我们得出结论:在没有充分人工检查的情况下,在真实世界的风险敏感领域中使用 ChatGPT 需要进一步考虑。
Mar, 2023