ParallelPARC：生成自然语言类比的可扩展管道

Mar, 2024

ParallelPARC：生成自然语言类比的可扩展管道

ParallelPARC: A Scalable Pipeline for Generating Natural-Language Analogies

Oren Sultan, Yonatan Bitton, Ron Yosef, Dafna Shahaf

TL;DR通过设计数据生成流水线，利用最先进的大型语言模型创建复杂的基于段落的类比，我们创建了 ProPara-Logy 数据集，用于科学过程之间的类比；在二进制和多选题设置中，我们测试了 LLMs 和人类的类比识别，发现在轻量级监督之后人类的性能优于最佳模型（13％差异），同时证明我们的银标准集对于训练模型很有用；最后，我们展示了具有挑战性的干扰物混淆 LLMs 但不混淆人类，希望我们的流水线能够鼓励该新兴领域的研究。

Abstract

analogy-making is central to human cognition, allowing us to adapt to novel situations -- an ability that current ai systems still lack. Most analogy datasets today focus on simple analogies (e.g., word analogies

analogy-making ai systems data generation pipeline large language models scientific processes

发现论文，激发创造

预训练语言模型中的科学和创意类比

本文研究了大规模预训练语言模型（如 BERT 和 GPT-2）中类比的编码。我们介绍了一个新的类比数据集（SCAN），包含跨不同领域的多个属性和关系结构的系统映射，测试了几种广泛使用的预训练语言模型（LMs）的类比推理能力。然后发现，最先进的 LMs 在这些复杂的类比任务中表现不佳，突出了类比理解仍然存在的挑战。

Nov, 2022

StoryAnalogy: 从大型语言模型获取故事层面类比以解锁类比理解

评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力，并发现类比识别任务对于句子嵌入模型和最近的大型语言模型（LLMs）都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量，其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。

Oct, 2023

AnaloBench: 评估抽象与长文本上下文类比的鉴别能力

用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验，并将类比推理应用于复杂和冗长的情景中。

Feb, 2024

生活如马戏团，我们是小丑：自动寻找情境和进程之间的类比

本研究通过探索一种更具有现实性且具有挑战性的方法，基于关系相似性来找到不同域之间的映射，使用自动提取文本中实体及其关系并进行解释性的可扩展性算法，从大量的自然语言过程文本数据集中提取类比，并证明该算法对于文本的释义具有鲁棒性。

Oct, 2022

ANALOGICAL - 大语言模型长文本类比的新基准

提出了一个新的基准测试，名为 ANALOGICAL，在长文本的类比上对大型语言模型（LLMs）进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中，发现当上升类比分类学时，LLMs 越来越难以识别类比。

May, 2023

使用预训练语言模型进行上下文类比推理

通过将人类语言与类比制造联系起来，我们使用大规模预训练的语言模型（PLMs）来支持人工智能系统的类比能力，将感知特征转换成语言形式，PLMs 展现出惊人的零 - shot 关系推理能力，并在 RPM 测试中接近监督的以视觉为基础的方法。

May, 2023

ARN：故事类修辞推理的综合框架和数据集

通过将认知心理学中的类比推理理论在叙述上进行计算适应，我们提出了类比叙事（ARN）数据集和一个大规模的评估框架，研究了不同抽象程度的类比、不类比之间的匹配。研究结果表明，当较高级别的映射缺乏较低级别的映射时（远类比），大语言模型难以识别；而当所有映射同时存在时（近类比），大语言模型的性能得到改善。我们观察到，在所有的设置中，大语言模型的类比推理能力容易受到与查询叙事形成较低级别映射的近干扰的影响。

Oct, 2023

chatGPT 生成的长篇比喻缺乏类人语言心理学特征

本文利用心理语言学方法比较人类生成的文本和 chatGPT LLM 关于生物化学概念的类比句子，并使用监督式分类分析和层次聚类方法，从 78 个不同特征中区分两种生成方式之间的语言差异。

Jun, 2023

FAME: 灵活、可扩展的类比映射引擎

人类认知的核心能力之一是类比；在面对新的情境时，我们经常将先前的经验从其他领域转化过来。多数关于计算类比的研究主要依赖于复杂的、手工制作的输入。本研究通过减少输入要求，只需要对实体进行映射，自动提取常识表示并将其用于实体之间的映射。与以往的工作不同，我们的框架能够处理部分类比并提出新的实体添加。此外，我们的方法的输出易于解释，允许用户理解为什么选择了特定的映射。实验证明，我们的模型能够正确映射 81.2% 的典型的 2x2 类比问题（猜测水平 = 50%）。在更大的问题上，它的准确率达到 77.8%（平均猜测水平 = 13.1%）。在另一个实验中，我们展示了我们的算法优于人类表现，并且自动提出的新实体与人类的建议类似。我们希望这项工作能通过为更灵活、更现实的输入要求铺平道路来推动计算类比的发展。

Nov, 2023

通过类比挖掘加速创新

通过学习较简单的 “问题模式” 结构表示，并结合众包和递归神经网络从产品描述中提取目的和机制向量表示，使我们在寻找类比时可以比传统信息检索方法获得更高的精确度和召回率，在创意发想实验中，模型检索的类比与传统方法相比，显著提高了人们产生创造性想法的可能性，这一结果表明，在许多大规模的现实生活情境下，学习和利用较弱的结构表示是实现计算类比的一种很有前途的方法。

Jun, 2017