是否对文本进行标记化：跨语言转移的文本表示的比较研究

Oct, 2023

是否对文本进行标记化：跨语言转移的文本表示的比较研究

To token or not to token: A Comparative Study of Text Representations for Cross-Lingual Transfer

Md Mushfiqur Rahman, Fardin Ahsan Sakib, Fahim Faisal, Antonios Anastasopoulos

TL;DR选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响，我们对具有不同文本表示模式的语言模型进行了比较分析，包括 2 个基于分词的模型（BERT，mBERT）、一个基于图像的模型（PIXEL）和一个基于字符级别的模型（CANINE）。通过提出的评分语言系数（LQ），我们在 19 种源语言和 133 种目标语言上执行了涵盖 POS 标记、依赖解析和 NER 的实验证明了基于图像的模型在语言密切相关且具有相似视觉脚本的情况下，在跨语言转移中表现出色。然而，在偏向于词义（POS，NER）的任务中，基于分词的模型表现优越。此外，在强依赖于词汇关系的依赖解析任务中，具有字符级别关注的模型胜过其他模型。最后，根据我们的发现，我们提出了一个基于我们的研究成果的建议方案，以指导根据任务和语言要求进行模型选择。

Abstract

Choosing an appropriate tokenization scheme is often a bottleneck in low-resource cross-lingual transfer. To understand the downstream implications of →

tokenization scheme cross-lingual transfer language models text representation model selection

发现论文，激发创造

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如 POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

从零到英雄：多语言 Transformer 的零 - shot 跨语言转移限制

分析了 massively multilingual transformers 在零射击跨语言场景中的局限性，并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验，确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外，研究表明通过在源语言上调整细节，再在目标语言上进行少量微调的 few-shot transfer 在多语言转换中十分有效。

May, 2020

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

分析监督式 NLP 任务中的零样本跨语言迁移

本文论述了跨语言零 - shot 迁移的问题，并通过对 XLM-RoBERTa 进行实验，研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验（STS）中表现最强，情感分析次之，机器阅读理解中表现最弱。

Jan, 2021

跨语言调整上下文词表示对零 - shot 迁移的影响

本研究使用已训练好的 mBERT 模型对英语模型进行零样本迁移，并尝试采用小型平行语料库进行跨语言调整以提高性能表现，结果表明跨语言调整对不同语言的自然语言处理任务表现效果显著，且可以提高语义相似词汇的嵌入向量距离。

Apr, 2022

如何通过操作分词来提高跨语言转移能力？对非规范化语言进行词性标注研究

研究 finetuning 预训练语言模型（PLMs）的挑战在于当在未预先训练的数据中出现前所未见的语言变化时，它们的分词器可能变得脆弱，导致在性能上下降，提出了一种在七种语言上用不同的方式衡量的调整标记方法，结果表明源数据和目标数据中单词拆分的比例差异（拆分单词比差异）是目标数据上模型表现的最强预测因素。

Apr, 2023

共享嵌入空间中跨语言性的大规模多语言分析

本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素，并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析，结果表明，词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。

Sep, 2021

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

关于编程语言模型训练和评估的语言选择影响

在这项研究中，我们通过使用基于 CodeBERT 的模型分析编程语言的表示来评估编程语言的相似性，发现 C++、Python 和 Java 等语言的标记表示彼此接近，而 Mathematica 和 R 等语言的标记表示存在明显的差异。我们的发现表明，这一现象可能在处理多种语言时导致性能挑战，因此我们建议在训练和评估未来的模型时选择多样化的编程语言。

Aug, 2023