DICT-MLM:使用双语词典的改进多语种预训练
本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品,证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能,并且使用较小的模型进行验证。
Sep, 2021
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响,通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练,并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小,这也对语言信息熵理论的主流观点提出了疑问。
Mar, 2022
本研究提出一种影响掩蔽语言模型预训练的方法,使其在无监督的方式下优先选择有信息的词汇,实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。
Apr, 2023
利用教师 - 学生框架从高性能的单语言模型中转移知识,构建了一个基于 MPLMs 的多语言分支模型(MBLM),并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习,我们的方法仅使用任务的监督数据,提高了 MPLMs 的监督性能和零射击性能。
Feb, 2022
本研究旨在探究更加复杂的目标掩码方案是否能够取得比 Masked language modeling 更好的效果,并验证它们需要具备多少的复杂性才能够达到相似的性能;结果表明,相对于 Masked language modeling 来说,更加复杂的掩码方案能够在半数量级的复杂性下取得更好的效果,最后,我们还从任务复杂性的角度探讨了如何预训练模型。
May, 2023
本文研究无监督跨语言预训练在神经机器翻译中的应用,通过对编码器输入进行屏蔽或者基于上下文重新排序和替换等不同预训练方法的比较,发现无监督机器翻译对预训练目标的敏感度较高,与有监督机器翻译相比,更需要具有强大跨语言能力的编码器模型。
Jun, 2021
本文提出了一种新的跨语言预训练方法,通过融合显式的跨语言训练信号,从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.
Aug, 2019