为跨语言语言模型预训练分配大型词汇容量

EMNLPSep, 2021

为跨语言语言模型预训练分配大型词汇容量

Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training

Bo Zheng, Li Dong, Shaohan Huang, Saksham Singhal, Wanxiang Che...

TL;DR通过 VoCap 算法确定语言所需的词汇容量并使用 k-NN 目标采样来加速昂贵的 softmax，从而缓解词汇量增加的副作用，提高交叉语言模型的预训练速度和性能。

Abstract

Compared to monolingual models, cross-lingual models usually require a more expressive vocabulary to represent all languages adequately. We find that many languages are under-represented in recent cross-lingual language models due to the limited →

cross-lingual models vocabulary capacity pre-training speed vocap algorithm k-nn-based target sampling

发现论文，激发创造

使用词汇扩展提高预训练多语言模型的性能

本文研究了两种方法（联合映射和混合映射）来解决预先训练的 BERT 多语言模型中的词汇表大小和词汇缺失问题，并在多个任务中进行了实验。结果表明，使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。

Sep, 2019

利用语言聚类词汇改进多语言模型

本文比较现有多语言模型词汇表生成方法，提出了一种新的多语言词汇表生成方法。实验证明，该方法能够提高多个语言上的推理性能，同时在不增加模型大小或数据的情况下，将语言识别率降低了 8 倍。

Oct, 2020

大词汇神经语言模型的训练策略

本研究系统比较了代表性的方法来表示和训练大词汇下的神经网络语言模型，包括 softmax、层级 softmax、自归一化等方法，并在三个流行的基准数据集上评估了每种方法在罕见词汇、速度 / 精度平衡以及与 Kneser-Ney 模型之间的互补性方面的表现。

Dec, 2015

嵌入结构的重要性：比较将多语言词汇适应到新语言的方法

本研究提出了几种简单的技术，通过替换跨语言词汇为紧凑的特定语言词汇来改善在低资源语言中的性能，以及基于脚本子分布的嵌入重初始化技术在适应多语言模型方面与依赖于辅助模型获得的相似度分数的技术（如焦点方法）相媲美。

Sep, 2023

跨语言词汇适应的实证研究：高效生成式 LLM 推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

大词汇量提升大型语言模型

本文通过实证研究了子词词汇大小与大型语言模型（LLM）性能之间的关系，以提供关于如何定义词汇大小的洞见。实验结果表明，更大的词汇大小可提高 LLM 的性能。此外，我们考虑了一个持续训练的情景，其中一个预训练的语言模型在不同的目标语言上进行训练。我们引入了一种简单的方法，使用新的词汇代替预定义的词汇。我们证明使用新词汇优于使用预训练词汇的模型。

Jun, 2024

低资源跨语言迁移的词汇扩展

通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量，我们在语料资源有限的环境中发现，基于简单启发式的词向量初始化方法更高效、更稳定，能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。

Jun, 2024

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

语言污染现象解释英语预训练模型的跨语言能力

本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Apr, 2022

以字节衡量跨语言转移

通过实验证实，多语言预训练可以在源语言和目标语言之间进行跨语言迁移，且不仅语言污染和语言近似性是影响迁移的因素，还有一种语言无关的知识组件，可以用于跨语言迁移和知识传递。

Apr, 2024