Transformer的结构自监督目标

Sep, 2023

Structural Self-Supervised Objectives for Transformers

Luca Di Liello

TL;DR本文重点研究如何通过使用无监督原始数据来改善自然语言模型的预训练，使其更高效并与下游应用相匹配。在第一部分中，我们介绍了三种替代BERT的Masked Language Modeling（MLM）的预训练目标，分别为Random Token Substitution（RTS）、Cluster-based Random Token Substitution（C-RTS）和Swapped Language Modeling（SLM）。第二部分中，我们提出了与下游应用结构对齐的自监督预训练任务，减少了对标记数据的需求，并展示了在Fact Verification、Answer Sentence Selection和Summarization等任务上的显著性能提升。

Abstract

This thesis focuses on improving the pre-training of natural language models using unsupervised raw data to make them more efficient and a

发现论文，激发创造

ELECTRA：将文本编码器视为判别器而非生成器的预训练

提出了一种更节省样本的预训练任务，叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记，然后通过训练一个判别模型，以预测输入标记是否被替换，而不是预测被替换的标记的原始身份来破坏输入，从而定义所有输入标记的任务，比普通的Masked language modeling更有效，并表现出比BERT更好的上下文表示学习效果。

Mar, 2020

通过自标注的词对齐改进预训练的跨语言语言模型

该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法，通过在双语对中进行自我标注的单词对齐，结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词，并在期望值最大化的方式下交替进行两个步骤，实验结果表明该方法在各种数据集上提高了跨语言可传递性。

Jun, 2021

自然语言处理中基于Transformer的预训练模型综述

本论文对基于Transformer的预训练语言模型进行了全面调查，并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及T-PTLMs的新分类法，提供了各种有用的库以及未来研究方向，该论文可作为学习核心概念和了解T-PTLMs近期进展的参考资料。

Aug, 2021

简单却令人沮丧的预训练替代方法: 掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为MLM替代品，证明这些方法可以达到与使用BERT-BASE结构的MLM相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

高效BERT预训练的Token Dropping

提出了一种基于token dropping方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将BERT的预训练成本减少25%。该方法通过在中间层开始丢弃不重要的token，使模型更专注于重要的token，然后让最后一层重新生成完整的序列，这可以通过利用Masked Language Modeling的已建成的loss函数来实现，计算代价几乎为零。

Mar, 2022

下游数据集出人意料地成为良好的预训练语料库

本文介绍了一个大规模的自我训练研究，其中使用相同的（下游）训练数据进行预训练和微调，并且观察到自我预训练可以与标准预训练相媲美，这表明在许多情况下，预训练性能增益主要受预训练目标本身的驱动，而不一定是庞大数据集的影响。

Sep, 2022

BudgetLongformer：我们能否以低成本从头开始预训练SotA法律语言模型？

通过Replaced Token Detection任务提高训练信号量，我们训练了Longformer模型来展示使用更少的计算力可以预训练高效的语言模型，并在长文本摘要任务上取得了很好的性能。

Nov, 2022

经过1亿个单词的训练，BERT依然保持着良好状态：BERT遇见英国国家语料库

本文探讨了小规模训练对于掩码语言模型的影响，使用英国国家语料库作为语料来源，进行了预训练和性能测试，并提出了优化后的LTG-BERT模型结构，为掩码语言模型的发展提供了新的思路。

Mar, 2023

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

充分利用您的模型：微调和应用预训练变换器的方法

本研究解决了微调预训练变换器模型效率与功能的不足，提出了两种新微调方法。其中一种通过引入递归机制提升变换器解码器的效率，另一种则使得掩蔽语言模型可用于非自回归序列到序列变换器的初始化，扩展其生成应用。研究显示，新技术可在不额外微调的情况下改善变换器解码器的预测质量，具有重要的实践价值。

Aug, 2024