该综述评估了现有的上下文嵌入模型,跨语言多语预训练,上下文嵌入在下游任务中的应用,模型压缩和分析。
Mar, 2020
通过研究 BERT 中的单词上下文含义的量化,我们展示了预训练语言模型如何解释单词在上下文中的重要性,结果显示顶层语义表示对于任务的推断非常准确,底层语义表示更具可转移性。
Apr, 2020
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
研究比较四种最近的模型对句子结构的编码情况,发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现,但对语义任务的改进相对较小。
May, 2019
该论文使用二进制掩码对预训练模型中不同层的输出进行切割,以解离 BERT 中的语义意义,而不更新预训练参数,从而产生解离的嵌入表示。使用二进制分类验证解离的嵌入的效果,判断两个不同句子中目标词的含义是否相同。实验结果表明,利用层次信息是有效的,而解离的语义意义进一步提高了性能。
Oct, 2023
PolyLM 是一种基于语言建模的词义嵌入方法,能够融合上下文化嵌入技术,通过对词义的建模及概率计算实现更加准确的词义感知,在词义感知任务上性能优于先前的方法,且只有现有方法参数数量的六分之一。
Jan, 2021
用上下文化单词表示替代静态单词嵌入在许多自然语言处理任务中都有很大的提升。本文研究了从 ELmo 和 BERT 等模型生成的上下文化表示到底有多少有多少上下文性,是否针对每个单词有无限多个上下文相关的表示,还是本质上分配了一个有限数量的单词感觉表示。
Sep, 2019
本研究旨在了解多语言预训练语言模型(MPLMs)在不受监督学习方式下与其多语性之间的关系,指出 MPLMs 的表示是否是语言无关的或与学习任务预测头相互交错,同时,我们定位了 MPLM 中的语言特定信息,并确定其维度和发生这些信息的层次,以及该信息散布在许多维度中,并可投影为线性子空间。
Sep, 2021
该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息,结果显示这些模型的中间层主要包含了隐喻性知识,并且该知识在多语言和多数据集中具有泛化性。
Mar, 2022
本研究提出基于预训练语言模型的动态情境词向量,能够以语言和非语言环境为依据来表征单词的含义变化,并在四个英文数据集上做出定性和定量分析,以彰显其应用潜力。
Oct, 2020