语言模型可以学习类比推理吗?研究训练目标和与人类表现的比较
通过将人类语言与类比制造联系起来,我们使用大规模预训练的语言模型(PLMs)来支持人工智能系统的类比能力,将感知特征转换成语言形式,PLMs 展现出惊人的零 - shot 关系推理能力,并在 RPM 测试中接近监督的以视觉为基础的方法。
May, 2023
用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验,并将类比推理应用于复杂和冗长的情景中。
Feb, 2024
本论文比较了人类视觉类比问题解决能力和三种不同的计算模型的性能,包括成分模型、连体网络和关系网络,结果显示成分模型的定性表现与人类推理者相似,而深度学习模型的表现则不如人类。
May, 2021
通过探究教师语言模型在理解科学概念方面创建的类比如何帮助学生语言模型,从而使其与实际场景更加紧密地对齐,本研究结果表明,自由形式的类比确实可以帮助语言模型理解概念,并且学生语言模型生成的类比可以提高它们在科学问题回答方面的性能,展示了它们利用类比进行自我学习新知识的能力。
Jun, 2024
通过将认知心理学中的类比推理理论在叙述上进行计算适应,我们提出了类比叙事(ARN)数据集和一个大规模的评估框架,研究了不同抽象程度的类比、不类比之间的匹配。研究结果表明,当较高级别的映射缺乏较低级别的映射时(远类比),大语言模型难以识别;而当所有映射同时存在时(近类比),大语言模型的性能得到改善。我们观察到,在所有的设置中,大语言模型的类比推理能力容易受到与查询叙事形成较低级别映射的近干扰的影响。
Oct, 2023
该研究通过关注数据的选择和呈现方式,研究神经网络在感知和推理原始视觉数据时如何诱导类比推理能力,并发现最健壮的类比推理能力是通过在输入域中对抽象关系结构进行对比学习而诱导的。
Jan, 2019
本研究探讨了大型语言模型(比如 GPT-3)在模拟人类的模拟推理能力方面的表现,特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现,GPT-3 在抽象模式归纳方面具有出色的能力,并能够在大多数场景中匹配或超过人类的能力。因此,大型语言模型能够在许多类比问题中找到零样本解决方案。
Dec, 2022
本文研究了大规模预训练语言模型(如 BERT 和 GPT-2)中类比的编码。我们介绍了一个新的类比数据集(SCAN),包含跨不同领域的多个属性和关系结构的系统映射,测试了几种广泛使用的预训练语言模型(LMs)的类比推理能力。然后发现,最先进的 LMs 在这些复杂的类比任务中表现不佳,突出了类比理解仍然存在的挑战。
Nov, 2022
最近的研究证明,大型语言模型能够以零样本的方式解决各种基于文本的类比问题,表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑,引用了所谓的 ' 反事实 ' 任务的证据,其中标准的字母序列被任意改变,以减少与语言模型训练数据中可能存在的材料的相似性。在这里,我们回应这些批评,并澄清了关于我们原始工作中使用的测试材料的一些误解,并提供证据证明语言模型也能够推广到这些新的反事实任务变体。
Apr, 2024