跨语言的子词映射和定位

EMNLPSep, 2021

Subword Mapping and Anchoring across Languages

Giorgos Vernikos, Andrei Popescu-Belis

TL;DR提出了一种名为 SMALA 的跨语言子词表构建方法，通过使用无监督的映射技术提取子词对齐并基于子词相似性创建跨语言锚点，可用于改善多语言自然语言推理和神经机器翻译等任务。

Abstract

State-of-the-art multilingual systems rely on shared vocabularies that sufficiently cover all considered languages. To this end, a simple and frequently used approach makes use of subword vocabularies constructed

multilingual systems subword vocabularies smala method cross-lingual natural language inference neural machine translation

发现论文，激发创造

超越离线映射：通过上下文锚定学习跨语言词向量

本研究提出了一种基于弱监督（仅有相同单词列表）的方法，通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题，并在双语词表归纳和 XNLI 任务上取得了较好的结果，相比于传统的映射方法表现更好。

Dec, 2020

学习将多语言表示扩展到视觉语言任务

提出一种 SMALR 模型，它支持多种语言，其许多单词具有固定的语言不可知表示，同时保留少量的特定语言特征，并且它使用掩模交叉语言建模损失来对齐其他语言的上下文特征，具有较好的跨语言一致性。验证了该模型在多语言图像 - 句子检索任务上的有效性。

Apr, 2020

多语言翻译中的子词和跨语言转移的系统分析

此研究探讨了子词切分在跨语言迁移中的作用，发现子词规范化提高了多语言建模的协同效应，而 BPE 在跨语言微调中更有效地促进了迁移，在子词建模方面的决策对于优化多语言建模的好处至关重要。

Mar, 2024

Subword 池化有所不同

探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响，并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。

Feb, 2021

利用语言聚类词汇改进多语言模型

本文比较现有多语言模型词汇表生成方法，提出了一种新的多语言词汇表生成方法。实验证明，该方法能够提高多个语言上的推理性能，同时在不增加模型大小或数据的情况下，将语言识别率降低了 8 倍。

Oct, 2020

使用多个子词候选项改进神经网络翻译模型的子词正则化

介绍了一种利用 subword segmentation 的噪声来提高神经机器翻译鲁棒性的正则化方法，主要应用于低资源领域。

Apr, 2018

利用跨语言次词相似性进行低资源文档分类

该研究探讨了是否可以利用不同语言之间的字符级相似性实现跨语言文本分类，并提出了一个利用交叉语言字符级子词相似性的框架 (CACO)，结合字符嵌入器和基于词的分类器。实验结果表明利用字符级别的知识转移比使用基于词的转移在相关语言间更有效。

Dec, 2018

利用单语嵌入中的结构相似性进行非监督式词汇对应

本文提出了一种无监督的方法来学习一对语言的双语词典，并利用单语向量空间中的局部和全局结构将它们对齐，从而使相似的单词映射到一起，实验表明，使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。

Dec, 2017

利用无监督多语言上下文化表示进行低资源序列标注

本文提出了多语言语言模型与深度语义对准（MLMA），用于产生跨语言标注的语言无关表示，方法不需要平行数据或一个词一个词匹配，只需要单语语料库，并利用深度上下文表示。实验结果表明，本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。

Oct, 2019

共享嵌入空间中跨语言性的大规模多语言分析

本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素，并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析，结果表明，词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。

Sep, 2021