ELECTRA 激励：用判别式预训练模型进行少样本学习

EMNLPMay, 2022

ELECTRA 激励：用判别式预训练模型进行少样本学习

Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

Mengzhou Xia, Mikel Artetxe, Jingfei Du, Danqi Chen, Ves Stoyanov

TL;DR本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上，表明该方法在各种任务中均胜过 masked language models，并显示 ELECTRA 学习到的分布与下游任务更加一致。

Abstract

Pre-trained masked language models successfully perform few-shot learning by formulating downstream tasks as text infilling. However, as a strong alternative in full-shot settings, →

masked language models few-shot learning discriminative pre-trained models prompt-based few-shot learning electra

发现论文，激发创造

使用预训练置换检测模型作为少样本学习器

本文提出了一种使用预训练的 token-replaced 检测模型作为 few-shot 学习的替代方法，通过将分类或回归任务转化为 token-replaced 检测问题并利用自然语言提示来预测输入中最原始的标签描述词，对 16 个数据集进行了系统评估，结果表明该方法在一句话和两句话的学习任务中都优于使用预训练的 masked language model 的 few-shot 学习器。

Mar, 2022

ELECTRA 也是零样本学习器

本文提出了一种用于零样本学习的新型置换标记检测 (RTD) 提示学习模型，基于 ELECTRA 模型的 RTD-prompt 学习在 NLP 任务的零样本情况下表现出卓越的性能，尤其在 SST-2 任务上取得了令人惊叹的 90.1% 的准确率。相比预训练的遮蔽语言模型，预训练的置换标记检测模型在零样本学习中表现更佳。

Jul, 2022

多词选择增强的训练 ELECTRA

本研究中提出了一种基于多任务学习的文本编码器预训练方法来改进 ELECTRA 模型，通过同时检测替换的标记和从候选集中选择原始的标记来训练判别器，并使用注意力机制网络和共享底部层的技术同时处理各种预训练任务，取得了在 GLUE 和 SQuAD 数据集上的有效和高效的表现。

May, 2021

ELECTRA 预训练中替换采样的学习

本文提出使用困难度预测机制增强替换采样以改进 ELECTRA 预训练，并使用聚焦损失函数缓解正确标记替换过度采样的问题。实验结果表明，该方法在各种下游任务中都提高了 ELECTRA 预训练的性能。

Jun, 2021

预训练语言模型作为多角度课程学习者

本文针对 ELECTRA 预训练生成器与判别器训练时出现的单调训练和交互不足的问题，提出了一种多角度课程学习（MCL）算法。该算法通过将 MLM 缺点和标注标签平衡考虑在内的三个自监督课程设计，解决了单调训练和标签不平衡等问题。由于判别器与生成器无明确的反馈循环，该算法提出了两个自我修正课程，以创建 “修正笔记本” 进行辅助监督，弥合两个编码器之间的差距。生动实验表明，该算法使平均表现提高 2.8％和 3.2％，超过了同样设置下最近的先进 ELECTRA 样式模型。

May, 2023

AraELECTRA：面向阿拉伯语文本理解的预训练判别器

本文介绍了一种名为 AraELECTRA 的阿拉伯语语言表示模型，使用替换标记检测目标在大型阿拉伯文本语料库上进行预训练，评估模型在多种阿拉伯自然语言处理任务中的表现，结果显示 AraELECTRA 在给定相同预训练数据且模型更小的情况下，优于当前现有的阿拉伯语言表示模型。

Dec, 2020

以判别式语言模型为基础的语义一致性评分器，用于基于提示的小样本文本分类

本文提出了一种新的基于提示的微调方法 (DLM-SCS) 用于少样本文本分类，通过利用区分性语言模型 ELECTRA，该模型是预先训练用于区分一个 token 是否是原始生成的。模型的基本思想是，用真实标签实例化的提示应具有比其他带有假标签的提示更高的语义一致性得分，由于提示通常包括几个部分，因此可以相应地分解其语义一致性，然后利用预训练的 ELECTRA 模型来计算每个部分的语义一致性，而不引入额外的参数。大量实验证明，我们的模型优于几种最先进的基于提示少样本方法。

Oct, 2022

高效预训练的 Fast-ELECTRA

通过利用现有的语言模型作为辅助模型，我们的方法 Fast-ELECTRA 解决了 ELECTRA 在训练成本上的限制，并通过温度调节和降序调度来平滑主模型的输出分布，从而提高了预训练的稳定性和性能。

Oct, 2023

ELECTRA：将文本编码器视为判别器而非生成器的预训练

提出了一种更节省样本的预训练任务，叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记，然后通过训练一个判别模型，以预测输入标记是否被替换，而不是预测被替换的标记的原始身份来破坏输入，从而定义所有输入标记的任务，比普通的 Masked language modeling 更有效，并表现出比 BERT 更好的上下文表示学习效果。

Mar, 2020

将预训练 Transformers 作为基于能量的 Cloze 模型

介绍了一种基于能量的填空模型 Electric，用于文本表示学习，通过噪声对比估计算法进行训练。Electric 在下游任务表现优秀，特别是在对文本进行可能性评分方面表现出较高的效果，同时清晰地解析了 ELECTRA 预训练期间所学习的内容。

Dec, 2020