ELECTRA 也是零样本学习器
本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上,表明该方法在各种任务中均胜过 masked language models,并显示 ELECTRA 学习到的分布与下游任务更加一致。
May, 2022
本文提出了一种使用预训练的 token-replaced 检测模型作为 few-shot 学习的替代方法,通过将分类或回归任务转化为 token-replaced 检测问题并利用自然语言提示来预测输入中最原始的标签描述词,对 16 个数据集进行了系统评估,结果表明该方法在一句话和两句话的学习任务中都优于使用预训练的 masked language model 的 few-shot 学习器。
Mar, 2022
提出使用更高效的预训练任务 Replaced Token Detection (RTD) 替代 Mask Language Modeling (MLM) 的新预训练语言模型 DeBERTaV3,并采用新的梯度解耦嵌入共享方法以提高训练效率和质量。在众多的下游 NLU 任务中,DeBERTaV3 表现出较其他同类结构的模型更高的正确率。
Nov, 2021
本研究中提出了一种基于多任务学习的文本编码器预训练方法来改进 ELECTRA 模型,通过同时检测替换的标记和从候选集中选择原始的标记来训练判别器,并使用注意力机制网络和共享底部层的技术同时处理各种预训练任务,取得了在 GLUE 和 SQuAD 数据集上的有效和高效的表现。
May, 2021
本文探讨了模型生成信号在改善零样本泛化文本到文本转换器(如 T5)中的效果。 我们研究了使用辅助模型预训练 T5 的各种设计,以构造更具挑战性的标记替换作为主要模型的去噪前缀。 基于这些研究,我们开发了一个新模型 METRO-T0,并改进了 ELECTRA-Style 的预训练策略,并在多种 NLP 任务上进行了提示微调。METRO-T0 在提示的 NLP 基准测试中胜过所有类似大小的基线,例如 T0 Eval 和 MMLU,并仅使用其 8%的参数即可与最先进的 T0-11B 模型相媲美。 我们对模型的神经激活和参数敏感性的分析表明,METRO-T0 的有效性源于更平衡的参数贡献和更好的利用它们的能力。
May, 2023
本文针对 ELECTRA 预训练生成器与判别器训练时出现的单调训练和交互不足的问题,提出了一种多角度课程学习(MCL)算法。该算法通过将 MLM 缺点和标注标签平衡考虑在内的三个自监督课程设计,解决了单调训练和标签不平衡等问题。由于判别器与生成器无明确的反馈循环,该算法提出了两个自我修正课程,以创建 “修正笔记本” 进行辅助监督,弥合两个编码器之间的差距。生动实验表明,该算法使平均表现提高 2.8%和 3.2%,超过了同样设置下最近的先进 ELECTRA 样式模型。
May, 2023
本文提出了一种使用正则表达式从未标记语料库中挖掘标记示例的替代模板提示方法,通过微调预训练模型,相比模板提示方法更加灵活和可解释,在使用相似模板时在多个任务中表现出更好的性能。
Oct, 2022
提出了一种更节省样本的预训练任务,叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记,然后通过训练一个判别模型,以预测输入标记是否被替换,而不是预测被替换的标记的原始身份来破坏输入,从而定义所有输入标记的任务,比普通的 Masked language modeling 更有效,并表现出比 BERT 更好的上下文表示学习效果。
Mar, 2020
本文提出使用困难度预测机制增强替换采样以改进 ELECTRA 预训练,并使用聚焦损失函数缓解正确标记替换过度采样的问题。实验结果表明,该方法在各种下游任务中都提高了 ELECTRA 预训练的性能。
Jun, 2021
本论文研究了 Transformer 模型的有效预训练目标,并探究了 ELECTRA 模型的若干新特性。结果表明,去除 mask token 以及全局损失计算有助于提升模型性能,同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型,并且这些方法受到超参数寻优的进一步改善。
Apr, 2021