探索文本生成的屏蔽语言建模和因果语言建模
本文介绍了一种名为条件遮蔽语言建模(CMLM)的新型训练方法,用于在大规模未标记的语料库上有效地学习句子表示。CMLM 通过在编码相邻句子的向量上进行条件处理,将句子表示学习整合到 MLM 训练中。我们的英语 CMLM 模型在 SentEval 上取得了最先进的性能,并且胜过使用监督信号学习的模型。作为完全无监督的学习方法,CMLM 可以方便地扩展到广泛的语言和领域。我们发现,与位文检索(BR)和自然语言推断(NLI)任务共同训练的多语言 CMLM 模型在跨语言语义搜索等方面比以前最先进的多语言模型的基准模型有了很大的提高,例如改进了基准模型 10%。我们探索了学习表示的相同语言偏见,并提出了一种简单的,基于模型的方法来从表示中删除识别语言的信息,同时仍保留句子语义。
Dec, 2020
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法,用于自我监督多语言知识检索,通过生成新的标记表示来预测掩码标记,实验结果表明,在 8 种语言上,我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。
Mar, 2022
本文介绍了一种新的神经机器翻译数据增强方法,可以在语言内外强制实现更强的语义一致性。结果表明,条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术,并集成了软词替换的思想,以增强数据多样性,加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果,展示了更真实的数据增强和更好的翻译质量,相对于强和最新的工作,我们的方法一致实现了最佳性能,并相对于基线改进了高达 1.90 BLEU 分数。
Sep, 2022
该研究的主要目的是探讨如何利用大规模的预训练语言模型如 BERT 来进行语言生成任务,并提出了一种基于条件掩码语言建模(C-MLM)的方法,使用 BERT 对学生模型进行监督,从而实现更好的文本生成性能,实验证明该方法在多语言生成任务上明显优于强大的 Transformer 基线,包括机器翻译和文本摘要,并在 IWSLT 德英和英越 MT 数据集上取得了新的最优效果。
Nov, 2019
提前训练的语言模型能够通过改进序列标记任务的表现,优于基于自回归语言模型的编码器,并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。
Jan, 2024
因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时,这篇综述从因果的角度对生成大型语言模型进行评估和改进,从而理解和提高生成大型语言模型的推理能力,解决公平性和安全性问题,提供解释支持,并处理多模态数据。与此同时,生成大型语言模型强大的推理能力可以推动因果推断领域的发展,帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用,强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。
Mar, 2024