人类与语言模型中演绎推理的系统比较
我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响,并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明,大型语言模型的行为可以通过认知科学中研究的启发式方式来解释,而背景学习和有监督微调都能提高模型在有效推理上的性能,尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。
Jun, 2024
本文研究当前的大型语言模型是否存在逻辑推理的偏见,探讨三种主要偏见类型,并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集,发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。
Jun, 2023
该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估,利用认知心理学原理探讨了模型使用的推理策略。结果发现,大型语言模型展示出类似于人类的推理模式,包括 “解释跟踪” 和 “链式构建” 等策略。此外,该研究表明模型的架构和规模显著影响其首选的推理方法,较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性,这一区别强调了该领域需要更为精细的评估程序。
Feb, 2024
大型语言模型在抽象推理任务上表现优秀,但与人类推理问题存在相似的缺陷,同时受到人类知识和信仰的影响,使用可信的现实情境方案进行推理可以提高推理质量,这种关联性帮助我们了解认知效应和语言模型表现的因素。
Jul, 2022
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要差异且模型的局限性在新版 LLM 中几乎完全消失,此外,我们还表明,虽然有可能设计策略以提高模型的性能,但人类和机器对相同的提示方案的响应并不相同,最后我们讨论了比较人类和机器行为在人工智能和认知心理学领域中的认识论意义和挑战。
Sep, 2023
使用迭代性的假设修正技术,通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力,并发现其在产生假设和筛选规则方面表现出色,但在识别可信规则和应用提议规则方面存在差距,揭示了语言模型在归纳推理任务中的潜力和局限。
Oct, 2023
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%,实现了一个更强大的推理系统,更少地依赖归纳偏见。
Mar, 2024
研究用自然语言作为代表知识的表示方法进行归纳推理的新任务 DEER 数据集,提出新的自动度量标准以及基于哲学文献的新任务框架,并且证明了预先训练好的语言模型在该任务上表现优秀。
Dec, 2022