PLM 中的上下文化发生在哪里？

EMNLPDec, 2023

Where exactly does contextualization in a PLM happen?

Soniya Vijayakumar, Tanja Bäumel, Simon Ostermann, Josef van Genabith

TL;DR在本研究中，我们通过定性和定量措施，研究了用于词义启动的 BERT uncased 12 层架构的基本表示，以确定预训练语言模型中词义转换的确切位置。

Abstract

pre-trained language models (PLMs) have shown to be consistently successful in a plethora of nlp tasks due to their ability to learn contextualized representations of words (Ethayarajh, 2019). BERT (Devlin et al.

pre-trained language models nlp tasks contextualized representations word contextualization polysemous words

发现论文，激发创造

上下文嵌入概述调查

该综述评估了现有的上下文嵌入模型，跨语言多语预训练，上下文嵌入在下游任务中的应用，模型压缩和分析。

Mar, 2020

用语义类别探测量化单词表示的情境化

通过研究 BERT 中的单词上下文含义的量化，我们展示了预训练语言模型如何解释单词在上下文中的重要性，结果显示顶层语义表示对于任务的推断非常准确，底层语义表示更具可转移性。

Apr, 2020

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

探究上下文词向量的句子结构学习

研究比较四种最近的模型对句子结构的编码情况，发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现，但对语义任务的改进相对较小。

May, 2019

通过逐层维度选择从预训练语言模型中解析单词语义

该论文使用二进制掩码对预训练模型中不同层的输出进行切割，以解离 BERT 中的语义意义，而不更新预训练参数，从而产生解离的嵌入表示。使用二进制分类验证解离的嵌入的效果，判断两个不同句子中目标词的含义是否相同。实验结果表明，利用层次信息是有效的，而解离的语义意义进一步提高了性能。

Oct, 2023

PolyLM: 通过语言模型学习多义词

PolyLM 是一种基于语言建模的词义嵌入方法，能够融合上下文化嵌入技术，通过对词义的建模及概率计算实现更加准确的词义感知，在词义感知任务上性能优于先前的方法，且只有现有方法参数数量的六分之一。

Jan, 2021

BERT、ELMo 和 GPT-2 嵌入的几何比较：上下文化词表示有多上下文？

用上下文化单词表示替代静态单词嵌入在许多自然语言处理任务中都有很大的提升。本文研究了从 ELmo 和 BERT 等模型生成的上下文化表示到底有多少有多少上下文性，是否针对每个单词有无限多个上下文相关的表示，还是本质上分配了一个有限数量的单词感觉表示。

Sep, 2019

在上下文嵌入中定位语言特定信息

本研究旨在了解多语言预训练语言模型（MPLMs）在不受监督学习方式下与其多语性之间的关系，指出 MPLMs 的表示是否是语言无关的或与学习任务预测头相互交错，同时，我们定位了 MPLM 中的语言特定信息，并确定其维度和发生这些信息的层次，以及该信息散布在许多维度中，并可投影为线性子空间。

Sep, 2021

预训练语言模型中的隐喻：跨数据集和语言的探测和普适性研究

该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息，结果显示这些模型的中间层主要包含了隐喻性知识，并且该知识在多语言和多数据集中具有泛化性。

Mar, 2022

动态语境词嵌入

本研究提出基于预训练语言模型的动态情境词向量，能够以语言和非语言环境为依据来表征单词的含义变化，并在四个英文数据集上做出定性和定量分析，以彰显其应用潜力。

Oct, 2020