辅助语言选择对序列标记改进的影响

ACLMay, 2020

辅助语言选择对序列标记改进的影响

On the Choice of Auxiliary Languages for Improved Sequence Tagging

Lukas Lange, Heike Adel, Jannik Strötgen

TL;DR探究了最佳辅助语言能否通过语言距离进行预测，并表明最相关的语言并不总是最佳辅助语言。进一步地，通过使用基于注意力机制的元嵌入，能够有效地组合来自不同语言的预训练嵌入来实现序列标记并取得了五种语言中词性标注的最新成果。

Abstract

Recent work showed that embeddings from related languages can improve the performance of sequence tagging, even for monolingual models. In this analysis paper, we investigate whether the best →

embeddings sequence tagging auxiliary language attention-based meta-embeddings part-of-speech tagging

发现论文，激发创造

语言嵌入：用于语言类型学和跨语言迁移学习

本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务，而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入，并在零样本情况下使用 WALS 和两个外部任务（跨语言依赖解析和跨语言自然语言推理）来评估嵌入。

Jun, 2021

双语词嵌入图的语言分类

研究了第二语言在双语词嵌入中在单语义评估任务中的作用，发现下游任务性能与第二语言与目标语言的相似性之间存在强烈和较弱的正相关性。此外，我们展示了如何将双语词嵌入用于语义语言分类任务，并且跨第二语言的联合语义空间以有意义的方式变化。结果支持语义语言相似性受结构相似性和地理 / 联系的影响的假设。

Jul, 2016

多语言词性标注：两种无监督方法

通过多语言学习，并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术，我们证明了在无监督词性标注中应用多语言学习的有效性，且在可用语言数量增加时，性能稳定提升。

Jan, 2014

诱导语言无关的多语言表示

本研究提出三种方法以提高跨语言表示的效果，包括将目标语言的向量空间重新对齐到源语言，去除语言特异性的均值和方差，以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现，这些方法联合使用可以降低跨语言转移障碍。

Aug, 2020

多语言模型在代码交错中有效吗？

本文研究了多语言语言模型在代码切换任务中的应用效果，通过研究实验得出使用元嵌入方法能够在参数数量减少的情况下取得类似的结果。

Mar, 2021

C3: 采用对比弱监督的持续预训练用于跨语言 Ad-Hoc 检索

本文介绍了一种使用多语言维基百科文章预训练预训练语言模型的方法，以提高检索效果。

Apr, 2022

无标签辅助语言的跨语言依存句法分析

本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示，进而用于跨语言转移，通过实验证明，对抗性训练能有效提高依存句法分析的跨语言性能。

Sep, 2019

共享嵌入空间中跨语言性的大规模多语言分析

本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素，并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析，结果表明，词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。

Sep, 2021

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

低资源语言的跨语言形态标注

提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Jun, 2016