预训练语言模型中的科学和创意类比

EMNLPNov, 2022

预训练语言模型中的科学和创意类比

Scientific and Creative Analogies in Pretrained Language Models

Tamara Czinczoll, Helen Yannakoudakis, Pushkar Mishra, Ekaterina Shutova

TL;DR本文研究了大规模预训练语言模型（如 BERT 和 GPT-2）中类比的编码。我们介绍了一个新的类比数据集（SCAN），包含跨不同领域的多个属性和关系结构的系统映射，测试了几种广泛使用的预训练语言模型（LMs）的类比推理能力。然后发现，最先进的 LMs 在这些复杂的类比任务中表现不佳，突出了类比理解仍然存在的挑战。

Abstract

This paper examines the encoding of analogy in large-scale pretrained language models, such as BERT and GPT-2. Existing analogy datasets typically focus on a limited set of analogical relations, with a high similarity of the two domains between which the analogy holds. As a more realistic setup, we introduce the →

pretrained language models analogy encoding scientific and creative analogy dataset analogical reasoning capabilities complex analogy tasks

发现论文，激发创造

表层相似性之下：大型语言模型进行结构收缩后能够提出科学上合理的类比

本文介绍了关于大型语言模型与人类类比推理的一些发现和研究，并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集，实验结果表明，结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。

May, 2023

StoryAnalogy: 从大型语言模型获取故事层面类比以解锁类比理解

评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力，并发现类比识别任务对于句子嵌入模型和最近的大型语言模型（LLMs）都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量，其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。

Oct, 2023

使用预训练语言模型进行上下文类比推理

通过将人类语言与类比制造联系起来，我们使用大规模预训练的语言模型（PLMs）来支持人工智能系统的类比能力，将感知特征转换成语言形式，PLMs 展现出惊人的零 - shot 关系推理能力，并在 RPM 测试中接近监督的以视觉为基础的方法。

May, 2023

AnaloBench: 评估抽象与长文本上下文类比的鉴别能力

用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验，并将类比推理应用于复杂和冗长的情景中。

Feb, 2024

语言模型可以学习类比推理吗？研究训练目标和与人类表现的比较

通过测试几种学习基本类比推理的方法，研究人员发现模型在少量数据情况下也能学习类比推理，并与人类基准数据集进行比较发现，经过训练后，模型接近人类表现。

Oct, 2023

提升科学概念理解能力：教师模型的类比能否增强学生模型？

通过探究教师语言模型在理解科学概念方面创建的类比如何帮助学生语言模型，从而使其与实际场景更加紧密地对齐，本研究结果表明，自由形式的类比确实可以帮助语言模型理解概念，并且学生语言模型生成的类比可以提高它们在科学问题回答方面的性能，展示了它们利用类比进行自我学习新知识的能力。

Jun, 2024

ParallelPARC：生成自然语言类比的可扩展管道

通过设计数据生成流水线，利用最先进的大型语言模型创建复杂的基于段落的类比，我们创建了 ProPara-Logy 数据集，用于科学过程之间的类比；在二进制和多选题设置中，我们测试了 LLMs 和人类的类比识别，发现在轻量级监督之后人类的性能优于最佳模型（13％差异），同时证明我们的银标准集对于训练模型很有用；最后，我们展示了具有挑战性的干扰物混淆 LLMs 但不混淆人类，希望我们的流水线能够鼓励该新兴领域的研究。

Mar, 2024

大型语言模型中的紧急类比推理

本研究探讨了大型语言模型（比如 GPT-3）在模拟人类的模拟推理能力方面的表现，特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现，GPT-3 在抽象模式归纳方面具有出色的能力，并能够在大多数场景中匹配或超过人类的能力。因此，大型语言模型能够在许多类比问题中找到零样本解决方案。

Dec, 2022

BERT 对 NLP 的意义相当于 AlexNet 对 CV：预训练语言模型如何识别类比？

本文研究基于 transformer 的语言模型在识别类比方面的能力，并使用从教育环境中获取的基准数据集以及更常用的数据集进行分析。结果发现，预训练的语言模型能够在一定程度上识别出类比，但对于抽象和复杂关系的处理仍然存在挑战，且结果高度敏感于模型架构和超参数。整体而言，GPT-2 和 RoBERTa 的表现较好，而使用 BERT 的配置无法胜过词嵌入模型。这些研究结果提出了未来工作的重要问题，即预训练的语言模型如何以及在多大程度上捕捉抽象语义关系的知识。

May, 2021

流体变压器与创意类比：探索大型语言模型在增强跨领域类比创造力方面的能力

本文系统地探讨了 LLMs 增强跨领域类比推理的能力，研究表明 LLM 生成的跨领域类比常常被认为是有帮助的，并且在问题形式化的过程中往往会引发重要的变化，并且存在潜在的风险，如可能引起不适的内容。

Feb, 2023