Transformers 的高效预训练目标

Apr, 2021

Efficient pre-training objectives for Transformers

Luca Di Liello, Matteo Gabburo, Alessandro Moschitti

TL;DR本论文研究了 Transformer 模型的有效预训练目标，并探究了 ELECTRA 模型的若干新特性。结果表明，去除 mask token 以及全局损失计算有助于提升模型性能，同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型，并且这些方法受到超参数寻优的进一步改善。

Abstract

The transformer architecture deeply changed the natural language processing, outperforming all previous state-of-the-art models. However, well-known transformer models like BERT, RoBERTa, and GPT-2 require a huge

transformer pre-training objectives electra model masked tokens hyper-parameters search

发现论文，激发创造

基于 Transformer 自编码器的有效预训练目标

本研究研究了使用不同的预训练目标预训练 Transformer 编码器时，效率、成本和准确性之间的权衡，并分析了常见目标的特征并将它们组合起来创建新的有效预训练方法。该实验使用基于直观统计方法的轻型标记生成器替换 ELECTRA 计算重的生成器，从而大大降低成本，并表明 (i) 比 BERT 的 MLM 更高效的替代方案存在，(ii) 可以使用更轻的生成器高效地预训练基于 Transformer 的模型，而不会显著降低性能。

Oct, 2022

多词选择增强的训练 ELECTRA

本研究中提出了一种基于多任务学习的文本编码器预训练方法来改进 ELECTRA 模型，通过同时检测替换的标记和从候选集中选择原始的标记来训练判别器，并使用注意力机制网络和共享底部层的技术同时处理各种预训练任务，取得了在 GLUE 和 SQuAD 数据集上的有效和高效的表现。

May, 2021

ELECTRA：将文本编码器视为判别器而非生成器的预训练

提出了一种更节省样本的预训练任务，叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记，然后通过训练一个判别模型，以预测输入标记是否被替换，而不是预测被替换的标记的原始身份来破坏输入，从而定义所有输入标记的任务，比普通的 Masked language modeling 更有效，并表现出比 BERT 更好的上下文表示学习效果。

Mar, 2020

将预训练 Transformers 作为基于能量的 Cloze 模型

介绍了一种基于能量的填空模型 Electric，用于文本表示学习，通过噪声对比估计算法进行训练。Electric 在下游任务表现优秀，特别是在对文本进行可能性评分方面表现出较高的效果，同时清晰地解析了 ELECTRA 预训练期间所学习的内容。

Dec, 2020

ELECTRA 激励：用判别式预训练模型进行少样本学习

本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上，表明该方法在各种任务中均胜过 masked language models，并显示 ELECTRA 学习到的分布与下游任务更加一致。

May, 2022

AraELECTRA：面向阿拉伯语文本理解的预训练判别器

本文介绍了一种名为 AraELECTRA 的阿拉伯语语言表示模型，使用替换标记检测目标在大型阿拉伯文本语料库上进行预训练，评估模型在多种阿拉伯自然语言处理任务中的表现，结果显示 AraELECTRA 在给定相同预训练数据且模型更小的情况下，优于当前现有的阿拉伯语言表示模型。

Dec, 2020

Transformer 的结构自监督目标

本文重点研究如何通过使用无监督原始数据来改善自然语言模型的预训练，使其更高效并与下游应用相匹配。在第一部分中，我们介绍了三种替代 BERT 的 Masked Language Modeling（MLM）的预训练目标，分别为 Random Token Substitution（RTS）、Cluster-based Random Token Substitution（C-RTS）和 Swapped Language Modeling（SLM）。第二部分中，我们提出了与下游应用结构对齐的自监督预训练任务，减少了对标记数据的需求，并展示了在 Fact Verification、Answer Sentence Selection 和 Summarization 等任务上的显著性能提升。

Sep, 2023

高效预训练的 Fast-ELECTRA

通过利用现有的语言模型作为辅助模型，我们的方法 Fast-ELECTRA 解决了 ELECTRA 在训练成本上的限制，并通过温度调节和降序调度来平滑主模型的输出分布，从而提高了预训练的稳定性和性能。

Oct, 2023

ELECTRA 也是零样本学习器

本文提出了一种用于零样本学习的新型置换标记检测 (RTD) 提示学习模型，基于 ELECTRA 模型的 RTD-prompt 学习在 NLP 任务的零样本情况下表现出卓越的性能，尤其在 SST-2 任务上取得了令人惊叹的 90.1% 的准确率。相比预训练的遮蔽语言模型，预训练的置换标记检测模型在零样本学习中表现更佳。

Jul, 2022

定位预测作为一种有效的预训练策略

本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略，可以提高 NLP、语音和视觉领域的性能，并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。

Jul, 2022