大型语言模型是否能像儿童一样解决词语类比问题?
评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力,并发现类比识别任务对于句子嵌入模型和最近的大型语言模型(LLMs)都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量,其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。
Oct, 2023
本文介绍了关于大型语言模型与人类类比推理的一些发现和研究,并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集,实验结果表明,结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。
May, 2023
人类学习和认知中的类比推理被认为是核心。最近的研究比较了人类与大型语言模型(LLMs)在抽象符号操作任务(如字母串类比)上的类比推理能力。然而,这些研究在对语义有意义的符号(如自然语言词汇)进行类比推理时基本上被忽略了。这种将语言与非语言领域相关联的类比能力,我们称之为语义结构映射,被认为在语言习得和更广泛的认知发展中起着关键作用。我们在要求从一个领域向另一个领域转移语义结构和内容的类比推理任务上对人类与 LLMs 进行了测试。先进的 LLMs 在许多任务变体上与人类表现相匹配。然而,人类和 LLMs 对某些任务变体和语义干扰有不同的反应。总的来说,我们的数据表明 LLMs 在这些重要的认知任务上正在接近人类水平的表现,但还不完全接近人类。
Jun, 2024
用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验,并将类比推理应用于复杂和冗长的情景中。
Feb, 2024
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种基于似乎掌握关键概念,另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。
Mar, 2024
提出了一个新的基准测试,名为 ANALOGICAL,在长文本的类比上对大型语言模型(LLMs)进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中,发现当上升类比分类学时,LLMs 越来越难以识别类比。
May, 2023
将复杂的计算概念与熟悉的经验和理解相联系通常是学生面临的挑战之一。为了帮助学生更好地理解,一个好的类比可以弥补陌生概念与熟悉概念之间的差距,提供一种有趣的学习方式。本研究调查了大型语言模型(特别是 ChatGPT)是否能够按需提供与个人相关的类比。通过对超过 350 名首年计算机学生生成的类比进行分析,研究集中于递归这一具有挑战性的门槛概念。结果表明,在学生自设主题的情况下生成的类比呈现出很大的多样性,而常规类比则相对较为普遍,这突显了学生在与大型语言模型合作时的创造力的价值。学生不仅对这项活动感到兴趣,而且他们表示理解了递归,而且更容易记住与个人和文化相关的类比。
Mar, 2024
本文系统地探讨了 LLMs 增强跨领域类比推理的能力,研究表明 LLM 生成的跨领域类比常常被认为是有帮助的,并且在问题形式化的过程中往往会引发重要的变化,并且存在潜在的风险,如可能引起不适的内容。
Feb, 2023