提取单语和跨语言上下文中的词语表示

Sep, 2024

提取单语和跨语言上下文中的词语表示

Distilling Monolingual and Crosslingual Word-in-Context Representations

Yuki Arase, Tomoyuki Kajiwara

TL;DR本研究解决了词语在上下文中的表示不足的问题，提出了一种从预训练的掩码语言模型中提取单语和跨语言词语表示的方法。该方法通过自注意力机制结合模型的不同隐藏层输出，避免了人工标注语料和模型参数更新的需要，并在单语和跨语言任务中均显示出竞争力和显著提升。

Abstract

In this study, we propose a method that distils representations of word meaning in context from a pre-trained masked language model in both monolingual and Crosslingual settings. Word Representations are the basi

发现论文，激发创造

一种轻量级的跨语言语义文本相似度方法

该研究提出了一种基于词向量的跨语义相似度计算方法，只需要一个有限的单词翻译库，能够适用于几乎所有语言对，达到与监督和资源密集型方法相近的表现，在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。

Jan, 2018

上下文词嵌入的跨语言对齐及其在零样本依赖分析中的应用

本文提出一种使用无监督预训练的深度上下文嵌入的多语言转移方法，可以提高零样本和少样本学习的依赖解析的效果。实验结果表明，该方法在六种测试语言中持续优于之前的最新技术。

Feb, 2019

无监督和半监督跨语言词嵌入学习的鲁棒性研究

本文通过大量的评估，分析了多种跨语言嵌入模型的优劣，特别是在目标语言，训练语料库和监督程度等不同方面的限制，从而对“高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到”的观点提出了质疑。

Aug, 2019

跨语言对齐与联合训练：比较研究和简单统一框架

本文研究了两种多语言文本学习方法，即alignment和joint training，并提出了将这两种方法结合的框架。实验证明，该框架改善了现有方法的局限性，在MUSE双语词汇诱导（BLI）基准测试中性能优于现有方法，并在CoNLL跨语言NER基准测试上产生了最新的结果。

Oct, 2019

跨语言学习通用表征

本文介绍了一种基于Hierarchical Contrastive Learning的方法，用于学习句子级别的跨语言表示方法，在XTREME任务和机器翻译任务中实验表明，该方法可以显著提高模型准确性。

Jul, 2020

探究预训练语言模型的词汇语义

本研究针对6种不同语言和5种不同词汇任务，对单语和多语言源LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析，并验证了较低变压器层携带更多类型级词汇知识的主张。

Oct, 2020

AM2iCo：使用对抗性示例在低资源语言中评估单词含义的上下文

本研究提出了AM2iCo用于多语言和跨语言的词汇语义评估，旨在研究最先进的预训练文本表示模型在理解跨语言环境下的词意识别方面的能力，结果显示当前预训练编码器表现与人类性能存在明显差距，尤其体现在低资源语言和与英语不同的语言上。

Apr, 2021

从多语种句子编码器探究跨语言词汇知识

本文将多语言预训练模型转化为多语言句子编码器，通过对句子编码器进行探索，采用基于对比学习的简单而高效的方法，揭示了句子编码器隐含的跨语言词汇知识，进而提供了一种利用跨语言词汇的工具。

Apr, 2022

通过对齐稀疏上下文化词表示来解决跨语言词义消岐中的多语言问题

我们提倡在跨语言零-shot词义消歧中使用大型预训练单语语言模型，并结合一种上下文映射机制。我们通过字典学习过程获得了稀疏上下文化词表示，并进行了严格的实验，证明了上述改进带来了显著的提升，平均F分数增加了近6.5个百分点（从62.0增加到68.5），涵盖了17种语言。我们在此网址发布了复制实验的源代码。

Jul, 2023

跨语言转移还是机器翻译？关于单语义文本相似性的数据增强

通过比较两种数据技术（跨语言转移和机器翻译），研究发现，使用英文数据训练的跨语言转移和使用英文数据转换为伪非英文训练数据的机器翻译在日语和韩语的单语STS上表现相当。此外，研究还发现Wikipedia领域在这些语言上优于NLI领域，并结合这些发现实验表明，跨语言转移Wikipedia数据能够提高单语STS的性能。

Mar, 2024