ELECTRA 句子嵌入是否无法修复？语义文本相似度的案例研究

Feb, 2024

ELECTRA 句子嵌入是否无法修复？语义文本相似度的案例研究

Are ELECTRA's Sentence Embeddings Beyond Repair? The Case of Semantic Textual Similarity

Ivan Rep, David Dukić, Jan Šnajder

TL;DR通过修复 ELECTRA 模型的嵌入方式，提出了一种新的修剪模型微调（TMFT）方法，可以显著提高其在 STS 基准数据集上的 Spearman 相关系数，并增加参数效率；该方法与词相似性任务或领域自适应预训练相结合进一步提升了性能。

Abstract

While bert produces high-quality sentence embeddings, its pre-training computational cost is a significant drawback. In contrast,

bert electra pre-training sentence embeddings stm benchmark dataset

发现论文，激发创造

多词选择增强的训练 ELECTRA

本研究中提出了一种基于多任务学习的文本编码器预训练方法来改进 ELECTRA 模型，通过同时检测替换的标记和从候选集中选择原始的标记来训练判别器，并使用注意力机制网络和共享底部层的技术同时处理各种预训练任务，取得了在 GLUE 和 SQuAD 数据集上的有效和高效的表现。

May, 2021

DeBERTaV3：使用基于 ELECTRA 风格的预训练和渐变解缠嵌入共享来提高 DeBERTa

提出使用更高效的预训练任务 Replaced Token Detection (RTD) 替代 Mask Language Modeling (MLM) 的新预训练语言模型 DeBERTaV3，并采用新的梯度解耦嵌入共享方法以提高训练效率和质量。在众多的下游 NLU 任务中，DeBERTaV3 表现出较其他同类结构的模型更高的正确率。

Nov, 2021

提升 Transformer 架构在语义文本相似性方面的性能

本文针对语义文本相似度的任务，采用 BERT、RoBERTa 和 DeBERTaV3 三种交叉编码器以二分类或回归的方式建模，调整了模型结构和手工特征的输入，旨在提高其准确性，其中就测试数据结果的讨论进行了误差分析。

Jun, 2023

无监督语义文本相似性的句子元嵌入

本文介绍了如何通过将不同的预训练句子编码器组合成句子元嵌入来解决无监督的语义文本相似性（STS）任务，我们在句子级别应用、扩展和评估了来自单词嵌入文献的不同元嵌入方法，并在 STS 基准测试和 STS12-STS16 数据集上设置了新的无监督状态，平均提高了 3.7% 至 6.4% Pearson 的 r 值。

Nov, 2019

Transformers 的高效预训练目标

本论文研究了 Transformer 模型的有效预训练目标，并探究了 ELECTRA 模型的若干新特性。结果表明，去除 mask token 以及全局损失计算有助于提升模型性能，同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型，并且这些方法受到超参数寻优的进一步改善。

Apr, 2021

ELECTRA 激励：用判别式预训练模型进行少样本学习

本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上，表明该方法在各种任务中均胜过 masked language models，并显示 ELECTRA 学习到的分布与下游任务更加一致。

May, 2022

Sentence-BERT：使用孪生 BERT 网络生成句子嵌入

本文介绍了 Sentence-BERT (SBERT)，它是预训练 BERT 网络的修改版，利用孪生和三元组网络结构来推导语义上有意义的句子嵌入，可以使用余弦相似性进行比较，将 BERT / RoBERTa 的寻找最相似组合的时间从 65 小时降至大约 5 秒钟，并保持来自 BERT 的精度。在共同的 STS 任务和转移学习任务中，我们评价 SBERT 和 SRoBERTa，该方法优于其他最先进的句子嵌入方法。

Aug, 2019

ELECTRA 也是零样本学习器

本文提出了一种用于零样本学习的新型置换标记检测 (RTD) 提示学习模型，基于 ELECTRA 模型的 RTD-prompt 学习在 NLP 任务的零样本情况下表现出卓越的性能，尤其在 SST-2 任务上取得了令人惊叹的 90.1% 的准确率。相比预训练的遮蔽语言模型，预训练的置换标记检测模型在零样本学习中表现更佳。

Jul, 2022

高效预训练的 Fast-ELECTRA

通过利用现有的语言模型作为辅助模型，我们的方法 Fast-ELECTRA 解决了 ELECTRA 在训练成本上的限制，并通过温度调节和降序调度来平滑主模型的输出分布，从而提高了预训练的稳定性和性能。

Oct, 2023

推进语义文本相似度建模：具有翻译 ReLU 和平滑 K2 损失的回归框架

该论文介绍了一种创新的回归框架，并提出了两种简单而有效的损失函数：翻译 ReLU 和平滑的 K2 损失。实验分析表明，我们的方法在七个已建立的语义文本相似性基准中取得了令人信服的性能，尤其是在补充任务特定的训练数据的情况下。

Jun, 2024