提取单语和跨语言上下文中的词语表示
该研究提出了一种基于词向量的跨语义相似度计算方法,只需要一个有限的单词翻译库,能够适用于几乎所有语言对,达到与监督和资源密集型方法相近的表现,在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。
Jan, 2018
本文提出一种使用无监督预训练的深度上下文嵌入的多语言转移方法,可以提高零样本和少样本学习的依赖解析的效果。实验结果表明,该方法在六种测试语言中持续优于之前的最新技术。
Feb, 2019
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对“高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到”的观点提出了质疑。
Aug, 2019
本文研究了两种多语言文本学习方法,即alignment和joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在MUSE双语词汇诱导(BLI)基准测试中性能优于现有方法,并在CoNLL跨语言NER基准测试上产生了最新的结果。
Oct, 2019
本文介绍了一种基于Hierarchical Contrastive Learning的方法,用于学习句子级别的跨语言表示方法,在XTREME任务和机器翻译任务中实验表明,该方法可以显著提高模型准确性。
Jul, 2020
本研究针对6种不同语言和5种不同词汇任务,对单语和多语言源LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析,并验证了较低变压器层携带更多类型级词汇知识的主张。
Oct, 2020
本研究提出了AM2iCo用于多语言和跨语言的词汇语义评估,旨在研究最先进的预训练文本表示模型在理解跨语言环境下的词意识别方面的能力,结果显示当前预训练编码器表现与人类性能存在明显差距,尤其体现在低资源语言和与英语不同的语言上。
Apr, 2021
本文将多语言预训练模型转化为多语言句子编码器,通过对句子编码器进行探索,采用基于对比学习的简单而高效的方法,揭示了句子编码器隐含的跨语言词汇知识,进而提供了一种利用跨语言词汇的工具。
Apr, 2022
我们提倡在跨语言零-shot词义消歧中使用大型预训练单语语言模型,并结合一种上下文映射机制。我们通过字典学习过程获得了稀疏上下文化词表示,并进行了严格的实验,证明了上述改进带来了显著的提升,平均F分数增加了近6.5个百分点(从62.0增加到68.5),涵盖了17种语言。我们在此网址发布了复制实验的源代码。
Jul, 2023
通过比较两种数据技术(跨语言转移和机器翻译),研究发现,使用英文数据训练的跨语言转移和使用英文数据转换为伪非英文训练数据的机器翻译在日语和韩语的单语STS上表现相当。此外,研究还发现Wikipedia领域在这些语言上优于NLI领域,并结合这些发现实验表明,跨语言转移Wikipedia数据能够提高单语STS的性能。
Mar, 2024