该文提出了一种可解释的基于知识的类比推理基准(E-KAR),通过收集并手动注释民族公务员考试中的问题及备选答案来测试基于神经网络的类比问题回答和解释生成能力,结果表明该基准对于某些最先进的技术仍具有挑战性。
Mar, 2022
本文研究了大规模预训练语言模型(如BERT和GPT-2)中类比的编码。我们介绍了一个新的类比数据集(SCAN),包含跨不同领域的多个属性和关系结构的系统映射,测试了几种广泛使用的预训练语言模型(LMs)的类比推理能力。然后发现,最先进的LMs在这些复杂的类比任务中表现不佳,突出了类比理解仍然存在的挑战。
Nov, 2022
本研究探讨了大型语言模型(比如GPT-3)在模拟人类的模拟推理能力方面的表现,特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现,GPT-3在抽象模式归纳方面具有出色的能力,并能够在大多数场景中匹配或超过人类的能力。因此,大型语言模型能够在许多类比问题中找到零样本解决方案。
Dec, 2022
本文介绍了关于大型语言模型与人类类比推理的一些发现和研究,并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集,实验结果表明,结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。
May, 2023
通过将人类语言与类比制造联系起来,我们使用大规模预训练的语言模型(PLMs)来支持人工智能系统的类比能力,将感知特征转换成语言形式,PLMs展现出惊人的零-shot关系推理能力,并在RPM测试中接近监督的以视觉为基础的方法。
通过测试几种学习基本类比推理的方法,研究人员发现模型在少量数据情况下也能学习类比推理,并与人类基准数据集进行比较发现,经过训练后,模型接近人类表现。
Oct, 2023
研究表明,尽管大型语言模型在类比推理方面表现出色,但它们缺乏人类类比能力的鲁棒性和普遍性。
Feb, 2024
用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验,并将类比推理应用于复杂和冗长的情景中。
通过设计数据生成流水线,利用最先进的大型语言模型创建复杂的基于段落的类比,我们创建了ProPara-Logy数据集,用于科学过程之间的类比;在二进制和多选题设置中,我们测试了LLMs和人类的类比识别,发现在轻量级监督之后人类的性能优于最佳模型(13%差异),同时证明我们的银标准集对于训练模型很有用;最后,我们展示了具有挑战性的干扰物混淆LLMs但不混淆人类,希望我们的流水线能够鼓励该新兴领域的研究。
Mar, 2024
通过探究教师语言模型在理解科学概念方面创建的类比如何帮助学生语言模型,从而使其与实际场景更加紧密地对齐,本研究结果表明,自由形式的类比确实可以帮助语言模型理解概念,并且学生语言模型生成的类比可以提高它们在科学问题回答方面的性能,展示了它们利用类比进行自我学习新知识的能力。
Jun, 2024