探索文本生成的屏蔽语言建模和因果语言建模

May, 2024

探索文本生成的屏蔽语言建模和因果语言建模

Exploration of Masked and Causal Language Modelling for Text Generation

Nicolo Micheletti, Samuel Belkadi, Lifeng Han, Goran Nenadic

TL;DR这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现，发现掩码语言模型在生成文本时具有更好的质量和连贯性，并且对下游任务的性能没有明显影响，从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。

Abstract

large language models (LLMs) have revolutionised the field of Natural Language Processing (NLP) and have achieved state-of-the-art performance in practically every task in this field. However, the prevalent approach used in →

large language models causal language modeling masked language modeling text generation downstream tasks

发现论文，激发创造

有条件掩码语言模型的通用句子表示学习

本文介绍了一种名为条件遮蔽语言建模（CMLM）的新型训练方法，用于在大规模未标记的语料库上有效地学习句子表示。CMLM 通过在编码相邻句子的向量上进行条件处理，将句子表示学习整合到 MLM 训练中。我们的英语 CMLM 模型在 SentEval 上取得了最先进的性能，并且胜过使用监督信号学习的模型。作为完全无监督的学习方法，CMLM 可以方便地扩展到广泛的语言和领域。我们发现，与位文检索（BR）和自然语言推断（NLI）任务共同训练的多语言 CMLM 模型在跨语言语义搜索等方面比以前最先进的多语言模型的基准模型有了很大的提高，例如改进了基准模型 10％。我们探索了学习表示的相同语言偏见，并提出了一种简单的，基于模型的方法来从表示中删除识别语言的信息，同时仍保留句子语义。

Dec, 2020

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

语言模型概述：最新发展与展望

本文从语言单位、结构、训练方法、评估方法和应用等五个方面，介绍了传统语言模型和预训练语言模型，讨论了二者的关系和语言模型在预训练时代的未来发展方向。

Mar, 2023

Auto-MLM: 自监督多语言知识检索的改进对比学习

本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法，用于自我监督多语言知识检索，通过生成新的标记表示来预测掩码标记，实验结果表明，在 8 种语言上，我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。

Mar, 2022

基于条件掩码语言模型的神经机器翻译语义一致数据增强

本文介绍了一种新的神经机器翻译数据增强方法，可以在语言内外强制实现更强的语义一致性。结果表明，条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术，并集成了软词替换的思想，以增强数据多样性，加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果，展示了更真实的数据增强和更好的翻译质量，相对于强和最新的工作，我们的方法一致实现了最佳性能，并相对于基线改进了高达 1.90 BLEU 分数。

Sep, 2022

BERT 模型知识压缩在文本生成中的应用

该研究的主要目的是探讨如何利用大规模的预训练语言模型如 BERT 来进行语言生成任务，并提出了一种基于条件掩码语言建模（C-MLM）的方法，使用 BERT 对学生模型进行监督，从而实现更好的文本生成性能，实验证明该方法在多语言生成任务上明显优于强大的 Transformer 基线，包括机器翻译和文本摘要，并在 IWSLT 德英和英越 MT 数据集上取得了新的最优效果。

Nov, 2019

不要总是看向右边：探究基于解码器的大型语言模型在序列标注中的能力

提前训练的语言模型能够通过改进序列标记任务的表现，优于基于自回归语言模型的编码器，并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。

Jan, 2024

基于集成 LLM 方法的生成式人工智能文本分类

本文提出了一种集成神经模型以检测大型语言模型生成的语言，并对模型进行归因的方法。

Sep, 2023

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

用于生物医学因果图构建的大型语言模型

本文提出一种利用 EMR 病历笔记来实现因果关系分析的机器学习方法，通过应用大型语言模型（LLMs）来解决医学研究中因果图构建的难题。

Jan, 2023