掩码语言模型所学习条件句的不一致性
研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能;理论认为,预训练语言模型通过遮盖具有暗示下游任务的填空作用,获得有用的归纳偏见。本文构建了类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码;我们演示了掩码语言模型(MLM)目标与学习图形模型中的统计依赖的现有方法之间的对应关系,并利用这一点派生出一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估,在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法(58.74 vs. 55.91 UUAS)
Apr, 2021
研究在 Masked language models 中提取出显式的联合分布的方法,并发现基于标识最接近 MLM 的条件的联合分布的方法效果最好,甚至可以有时胜过原来的 MLM 条件的出现。
May, 2023
该研究的主要目的是探讨如何利用大规模的预训练语言模型如 BERT 来进行语言生成任务,并提出了一种基于条件掩码语言建模(C-MLM)的方法,使用 BERT 对学生模型进行监督,从而实现更好的文本生成性能,实验证明该方法在多语言生成任务上明显优于强大的 Transformer 基线,包括机器翻译和文本摘要,并在 IWSLT 德英和英越 MT 数据集上取得了新的最优效果。
Nov, 2019
本文介绍了一种新的神经机器翻译数据增强方法,可以在语言内外强制实现更强的语义一致性。结果表明,条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术,并集成了软词替换的思想,以增强数据多样性,加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果,展示了更真实的数据增强和更好的翻译质量,相对于强和最新的工作,我们的方法一致实现了最佳性能,并相对于基线改进了高达 1.90 BLEU 分数。
Sep, 2022
提出一种名为条件 BERT 上下文增强的有标注句子的新数据增强方法,基于 BERT 的条件掩蔽语言模型,通过替换预测到的更多变化的子词来增加标注的语句的多样性,实验显示该方法可以轻松应用于卷积或循环神经网络分类器中以获得明显的改进。
Dec, 2018
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果,我们创建了一个遮掩性别任务,可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量(如日期和位置)之间的虚假相关性,我们展示了预训练(未经修改的)BERT 和 RoBERTa 大型模型的效果,最后,我们提供了一项在线演示,邀请读者进一步实验。
Jul, 2022
本文提出了一种简单有效的训练策略,通过应用掩蔽跨度预测模型, 实现了对两种语言的三个特定领域语料库在术语级和句子级翻译方面的持续改进,以解决神经机器翻译系统术语翻译的实用性和可靠性问题。
May, 2021
本文介绍了一种名为条件遮蔽语言建模(CMLM)的新型训练方法,用于在大规模未标记的语料库上有效地学习句子表示。CMLM 通过在编码相邻句子的向量上进行条件处理,将句子表示学习整合到 MLM 训练中。我们的英语 CMLM 模型在 SentEval 上取得了最先进的性能,并且胜过使用监督信号学习的模型。作为完全无监督的学习方法,CMLM 可以方便地扩展到广泛的语言和领域。我们发现,与位文检索(BR)和自然语言推断(NLI)任务共同训练的多语言 CMLM 模型在跨语言语义搜索等方面比以前最先进的多语言模型的基准模型有了很大的提高,例如改进了基准模型 10%。我们探索了学习表示的相同语言偏见,并提出了一种简单的,基于模型的方法来从表示中删除识别语言的信息,同时仍保留句子语义。
Dec, 2020
本文提出 DICT-MLM 方法以促进跨语言表示学习,分析表明该方法在多种涉及 30 多种语言的下游任务中表现出了更好的多语言表示能力。
Oct, 2020