预训练语言模型中的科学和创意类比
本文介绍了关于大型语言模型与人类类比推理的一些发现和研究,并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集,实验结果表明,结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。
May, 2023
评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力,并发现类比识别任务对于句子嵌入模型和最近的大型语言模型(LLMs)都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量,其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。
Oct, 2023
通过将人类语言与类比制造联系起来,我们使用大规模预训练的语言模型(PLMs)来支持人工智能系统的类比能力,将感知特征转换成语言形式,PLMs 展现出惊人的零 - shot 关系推理能力,并在 RPM 测试中接近监督的以视觉为基础的方法。
May, 2023
用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验,并将类比推理应用于复杂和冗长的情景中。
Feb, 2024
通过测试几种学习基本类比推理的方法,研究人员发现模型在少量数据情况下也能学习类比推理,并与人类基准数据集进行比较发现,经过训练后,模型接近人类表现。
Oct, 2023
通过探究教师语言模型在理解科学概念方面创建的类比如何帮助学生语言模型,从而使其与实际场景更加紧密地对齐,本研究结果表明,自由形式的类比确实可以帮助语言模型理解概念,并且学生语言模型生成的类比可以提高它们在科学问题回答方面的性能,展示了它们利用类比进行自我学习新知识的能力。
Jun, 2024
通过设计数据生成流水线,利用最先进的大型语言模型创建复杂的基于段落的类比,我们创建了 ProPara-Logy 数据集,用于科学过程之间的类比;在二进制和多选题设置中,我们测试了 LLMs 和人类的类比识别,发现在轻量级监督之后人类的性能优于最佳模型(13%差异),同时证明我们的银标准集对于训练模型很有用;最后,我们展示了具有挑战性的干扰物混淆 LLMs 但不混淆人类,希望我们的流水线能够鼓励该新兴领域的研究。
Mar, 2024
本研究探讨了大型语言模型(比如 GPT-3)在模拟人类的模拟推理能力方面的表现,特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现,GPT-3 在抽象模式归纳方面具有出色的能力,并能够在大多数场景中匹配或超过人类的能力。因此,大型语言模型能够在许多类比问题中找到零样本解决方案。
Dec, 2022
本文研究基于 transformer 的语言模型在识别类比方面的能力,并使用从教育环境中获取的基准数据集以及更常用的数据集进行分析。结果发现,预训练的语言模型能够在一定程度上识别出类比,但对于抽象和复杂关系的处理仍然存在挑战,且结果高度敏感于模型架构和超参数。整体而言,GPT-2 和 RoBERTa 的表现较好,而使用 BERT 的配置无法胜过词嵌入模型。这些研究结果提出了未来工作的重要问题,即预训练的语言模型如何以及在多大程度上捕捉抽象语义关系的知识。
May, 2021
本文系统地探讨了 LLMs 增强跨领域类比推理的能力,研究表明 LLM 生成的跨领域类比常常被认为是有帮助的,并且在问题形式化的过程中往往会引发重要的变化,并且存在潜在的风险,如可能引起不适的内容。
Feb, 2023