AnaloBench: 评估抽象与长文本上下文类比的鉴别能力
提出了一个新的基准测试,名为 ANALOGICAL,在长文本的类比上对大型语言模型(LLMs)进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中,发现当上升类比分类学时,LLMs 越来越难以识别类比。
May, 2023
提出了一个基于知识图谱的百万级类比知识库 ANALOGYKB,能够发现两种类型的类比,成功地让模型在类比推理任务中超越了之前最先进的方法。
May, 2023
通过测试几种学习基本类比推理的方法,研究人员发现模型在少量数据情况下也能学习类比推理,并与人类基准数据集进行比较发现,经过训练后,模型接近人类表现。
Oct, 2023
本文介绍了关于大型语言模型与人类类比推理的一些发现和研究,并提出了一种基于认知心理学的类比结构推断任务以及用于评估类比推理能力的 SCAR 基准测试集,实验结果表明,结合背景知识和解释的 CoT 方法可以显著提高 LLMs 在该任务上的表现。
May, 2023
通过将人类语言与类比制造联系起来,我们使用大规模预训练的语言模型(PLMs)来支持人工智能系统的类比能力,将感知特征转换成语言形式,PLMs 展现出惊人的零 - shot 关系推理能力,并在 RPM 测试中接近监督的以视觉为基础的方法。
May, 2023
评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力,并发现类比识别任务对于句子嵌入模型和最近的大型语言模型(LLMs)都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量,其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。
Oct, 2023
自动生成的相关示例对大规模语言模型(LLM)在类比推理任务中的性能具有非常可观的提升效果,并存在重要因素影响其准确性,研究者设计了两种改进方法以降低推理成本。
Apr, 2024
本文研究了大规模预训练语言模型(如 BERT 和 GPT-2)中类比的编码。我们介绍了一个新的类比数据集(SCAN),包含跨不同领域的多个属性和关系结构的系统映射,测试了几种广泛使用的预训练语言模型(LMs)的类比推理能力。然后发现,最先进的 LMs 在这些复杂的类比任务中表现不佳,突出了类比理解仍然存在的挑战。
Nov, 2022
通过探究教师语言模型在理解科学概念方面创建的类比如何帮助学生语言模型,从而使其与实际场景更加紧密地对齐,本研究结果表明,自由形式的类比确实可以帮助语言模型理解概念,并且学生语言模型生成的类比可以提高它们在科学问题回答方面的性能,展示了它们利用类比进行自我学习新知识的能力。
Jun, 2024