DICT-MLM：使用双语词典的改进多语种预训练

Oct, 2020

DICT-MLM：使用双语词典的改进多语种预训练

DICT-MLM: Improved Multilingual Pre-Training using Bilingual Dictionaries

Aditi Chaudhary, Karthik Raman, Krishna Srinivasan, Jiecao Chen

TL;DR本文提出 DICT-MLM 方法以促进跨语言表示学习，分析表明该方法在多种涉及 30 多种语言的下游任务中表现出了更好的多语言表示能力。

Abstract

pre-trained multilingual language models such as mBERT have shown immense gains for several natural language processing (NLP) tasks, especially in the zero-shot cross-lingual setting. Most, if not all, of these pre-trained models rely on the →

pre-trained multilingual language models masked-language modeling multilingual representation learning cross-lingual synonyms dict-mlm method

发现论文，激发创造

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

预训练目标如何影响大型语言模型在语言属性方面的学习？

本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响，通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练，并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小，这也对语言信息熵理论的主流观点提出了疑问。

Mar, 2022

无监督方式提升语言模型中的事实知识

本研究提出一种影响掩蔽语言模型预训练的方法，使其在无监督的方式下优先选择有信息的词汇，实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。

Apr, 2023

针对无监督神经机器翻译，提升预训练语言模型的词汇能力

本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法，应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。

Mar, 2021

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

掩码预训练目标的任务复杂度如何影响下游性能？

本研究旨在探究更加复杂的目标掩码方案是否能够取得比 Masked language modeling 更好的效果，并验证它们需要具备多少的复杂性才能够达到相似的性能；结果表明，相对于 Masked language modeling 来说，更加复杂的掩码方案能够在半数量级的复杂性下取得更好的效果，最后，我们还从任务复杂性的角度探讨了如何预训练模型。

May, 2023

探索无监督的预训练目标对机器翻译的影响

本文研究无监督跨语言预训练在神经机器翻译中的应用，通过对编码器输入进行屏蔽或者基于上下文重新排序和替换等不同预训练方法的比较，发现无监督机器翻译对预训练目标的敏感度较高，与有监督机器翻译相比，更需要具有强大跨语言能力的编码器模型。

Jun, 2021

预训练多语言语言模型入门

该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Jul, 2021

显式跨语言预训练用于无监督机器翻译

本文提出了一种新的跨语言预训练方法，通过融合显式的跨语言训练信号，从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.

Aug, 2019