为跨语言语言模型预训练分配大型词汇容量
本文研究了两种方法(联合映射和混合映射)来解决预先训练的 BERT 多语言模型中的词汇表大小和词汇缺失问题,并在多个任务中进行了实验。结果表明,使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。
Sep, 2019
本文比较现有多语言模型词汇表生成方法,提出了一种新的多语言词汇表生成方法。实验证明,该方法能够提高多个语言上的推理性能,同时在不增加模型大小或数据的情况下,将语言识别率降低了 8 倍。
Oct, 2020
本研究系统比较了代表性的方法来表示和训练大词汇下的神经网络语言模型,包括 softmax、层级 softmax、自归一化等方法,并在三个流行的基准数据集上评估了每种方法在罕见词汇、速度 / 精度平衡以及与 Kneser-Ney 模型之间的互补性方面的表现。
Dec, 2015
本研究提出了几种简单的技术,通过替换跨语言词汇为紧凑的特定语言词汇来改善在低资源语言中的性能,以及基于脚本子分布的嵌入重初始化技术在适应多语言模型方面与依赖于辅助模型获得的相似度分数的技术(如焦点方法)相媲美。
Sep, 2023
对五种生成式大型语言模型进行了实证研究,探讨了跨语言词汇适应方法对提高模型推理效率的有效性,发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%,同时适应更平衡的多语种数据可以使下游性能接近原始模型。
Feb, 2024
本文通过实证研究了子词词汇大小与大型语言模型(LLM)性能之间的关系,以提供关于如何定义词汇大小的洞见。实验结果表明,更大的词汇大小可提高 LLM 的性能。此外,我们考虑了一个持续训练的情景,其中一个预训练的语言模型在不同的目标语言上进行训练。我们引入了一种简单的方法,使用新的词汇代替预定义的词汇。我们证明使用新词汇优于使用预训练词汇的模型。
Jun, 2024
通过在不同角度研究目标词汇规模、初始化方法以及可用于适应的目标数据量,我们在语料资源有限的环境中发现,基于简单启发式的词向量初始化方法更高效、更稳定,能够在目标词汇规模和适应数据变化时胜过常用的随机初始化和更复杂依赖外部数据和模型的最先进方法。
Jun, 2024
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024
本文研究预训练语言模型在跨语言转移方面的表现,发现常见的英文预训练集中包含大量非英文文本,即使数量仅占不到 1%,也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据,也能够促进模型在目标语言上的跨语言转移,并且目标语言性能与预训练中见到的该语言数据量强相关。因此,我们认为在评估跨语言转移时,应该考虑到预训练模型不是真正的单语言模型。
Apr, 2022
通过实验证实,多语言预训练可以在源语言和目标语言之间进行跨语言迁移,且不仅语言污染和语言近似性是影响迁移的因素,还有一种语言无关的知识组件,可以用于跨语言迁移和知识传递。
Apr, 2024