ELECTRA 句子嵌入是否无法修复?语义文本相似度的案例研究
本研究中提出了一种基于多任务学习的文本编码器预训练方法来改进 ELECTRA 模型,通过同时检测替换的标记和从候选集中选择原始的标记来训练判别器,并使用注意力机制网络和共享底部层的技术同时处理各种预训练任务,取得了在 GLUE 和 SQuAD 数据集上的有效和高效的表现。
May, 2021
提出使用更高效的预训练任务 Replaced Token Detection (RTD) 替代 Mask Language Modeling (MLM) 的新预训练语言模型 DeBERTaV3,并采用新的梯度解耦嵌入共享方法以提高训练效率和质量。在众多的下游 NLU 任务中,DeBERTaV3 表现出较其他同类结构的模型更高的正确率。
Nov, 2021
本文针对语义文本相似度的任务,采用 BERT、RoBERTa 和 DeBERTaV3 三种交叉编码器以二分类或回归的方式建模,调整了模型结构和手工特征的输入,旨在提高其准确性,其中就测试数据结果的讨论进行了误差分析。
Jun, 2023
本文介绍了如何通过将不同的预训练句子编码器组合成句子元嵌入来解决无监督的语义文本相似性(STS)任务,我们在句子级别应用、扩展和评估了来自单词嵌入文献的不同元嵌入方法,并在 STS 基准测试和 STS12-STS16 数据集上设置了新的无监督状态,平均提高了 3.7% 至 6.4% Pearson 的 r 值。
Nov, 2019
本论文研究了 Transformer 模型的有效预训练目标,并探究了 ELECTRA 模型的若干新特性。结果表明,去除 mask token 以及全局损失计算有助于提升模型性能,同时参考 ELECTRA 模型的判别式方法可以更高效地训练 BERT-like 模型,并且这些方法受到超参数寻优的进一步改善。
Apr, 2021
本文提出了将 prompt-based few-shot learning 方法应用到 ELECTRA 上,表明该方法在各种任务中均胜过 masked language models,并显示 ELECTRA 学习到的分布与下游任务更加一致。
May, 2022
本文介绍了 Sentence-BERT (SBERT),它是预训练 BERT 网络的修改版,利用孪生和三元组网络结构来推导语义上有意义的句子嵌入,可以使用余弦相似性进行比较,将 BERT / RoBERTa 的寻找最相似组合的时间从 65 小时降至大约 5 秒钟,并保持来自 BERT 的精度。在共同的 STS 任务和转移学习任务中,我们评价 SBERT 和 SRoBERTa,该方法优于其他最先进的句子嵌入方法。
Aug, 2019
本文提出了一种用于零样本学习的新型置换标记检测 (RTD) 提示学习模型,基于 ELECTRA 模型的 RTD-prompt 学习在 NLP 任务的零样本情况下表现出卓越的性能,尤其在 SST-2 任务上取得了令人惊叹的 90.1% 的准确率。相比预训练的遮蔽语言模型,预训练的置换标记检测模型在零样本学习中表现更佳。
Jul, 2022
通过利用现有的语言模型作为辅助模型,我们的方法 Fast-ELECTRA 解决了 ELECTRA 在训练成本上的限制,并通过温度调节和降序调度来平滑主模型的输出分布,从而提高了预训练的稳定性和性能。
Oct, 2023
该论文介绍了一种创新的回归框架,并提出了两种简单而有效的损失函数:翻译 ReLU 和平滑的 K2 损失。实验分析表明,我们的方法在七个已建立的语义文本相似性基准中取得了令人信服的性能,尤其是在补充任务特定的训练数据的情况下。
Jun, 2024