BERT 对 NLP 的意义相当于 AlexNet 对 CV：预训练语言模型如何识别类比？

ACLMay, 2021

BERT 对 NLP 的意义相当于 AlexNet 对 CV：预训练语言模型如何识别类比？

BERT is to NLP what AlexNet is to CV: Can Pre-Trained Language Models Identify Analogies?

Asahi Ushio, Luis Espinosa-Anke, Steven Schockaert, Jose Camacho-Collados

TL;DR本文研究基于 transformer 的语言模型在识别类比方面的能力，并使用从教育环境中获取的基准数据集以及更常用的数据集进行分析。结果发现，预训练的语言模型能够在一定程度上识别出类比，但对于抽象和复杂关系的处理仍然存在挑战，且结果高度敏感于模型架构和超参数。整体而言，GPT-2 和 RoBERTa 的表现较好，而使用 BERT 的配置无法胜过词嵌入模型。这些研究结果提出了未来工作的重要问题，即预训练的语言模型如何以及在多大程度上捕捉抽象语义关系的知识。

Abstract

analogies play a central role in human commonsense reasoning. The ability to recognize analogies such as "eye is to seeing what ear is to hearing", sometimes referred to as analogical proportions, shape how we st

analogies language models transformers semantic relations education

发现论文，激发创造

预训练语言模型中的科学和创意类比

本文研究了大规模预训练语言模型（如 BERT 和 GPT-2）中类比的编码。我们介绍了一个新的类比数据集（SCAN），包含跨不同领域的多个属性和关系结构的系统映射，测试了几种广泛使用的预训练语言模型（LMs）的类比推理能力。然后发现，最先进的 LMs 在这些复杂的类比任务中表现不佳，突出了类比理解仍然存在的挑战。

Nov, 2022

语言模型可以学习类比推理吗？研究训练目标和与人类表现的比较

通过测试几种学习基本类比推理的方法，研究人员发现模型在少量数据情况下也能学习类比推理，并与人类基准数据集进行比较发现，经过训练后，模型接近人类表现。

Oct, 2023

AnaloBench: 评估抽象与长文本上下文类比的鉴别能力

用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验，并将类比推理应用于复杂和冗长的情景中。

Feb, 2024

使用预训练语言模型进行上下文类比推理

通过将人类语言与类比制造联系起来，我们使用大规模预训练的语言模型（PLMs）来支持人工智能系统的类比能力，将感知特征转换成语言形式，PLMs 展现出惊人的零 - shot 关系推理能力，并在 RPM 测试中接近监督的以视觉为基础的方法。

May, 2023

大型语言模型中的紧急类比推理

本研究探讨了大型语言模型（比如 GPT-3）在模拟人类的模拟推理能力方面的表现，特别是它在没有直接训练的情况下是否能够进行零样本推理。研究发现，GPT-3 在抽象模式归纳方面具有出色的能力，并能够在大多数场景中匹配或超过人类的能力。因此，大型语言模型能够在许多类比问题中找到零样本解决方案。

Dec, 2022

神经模型对形态类比的可迁移性

该研究论文讨论了如何利用深度学习方法探测形态比拟关系，探究了其在跨语言上的适用性，并提出了建立多语言形态模型的可行性。

Aug, 2021

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019