PromptBERT: 利用提示提高 BERT 句子嵌入
本文提出使用对比学习的方法,通过自我指导来改善 BERT 的句子表示质量,并将其应用于句子表示学习中。实验证明,与竞争对手的基线相比,我们的方法在广泛的句子相关任务上更加有效,并且在推理时效率高且鲁棒性强。
Jun, 2021
本文提出了一种新的基于提示的对比学习方法 (PromCSE),用于有效提高预训练语言模型 (PLMs) 的普适句子嵌入表示,在七个标准语义文本相似性任务和一个域转移语义文本相似性任务上取得了优于当前最先进的句子嵌入模型的效果。
Mar, 2022
本文利用 BERT 的原始预训练任务 Next Sentence Prediction(NSP)探索零样本学习场景下的自然语言处理任务,提出了基于句子级别的 NSP-BERT 方法,克服了标记级方法的固定长度和位置限制,可应用于实体链接等任务。作者还提出了多种下游任务的快速构建模板和两阶段提示方法。在 FewCLUE 基准测试中,NSP-BERT 在大多数任务上超过其他零样本方法,并接近少样本方法。
Sep, 2021
本文提出了一种新的对比学习方法,使用提示词构建每个实例的虚拟语义原型,并通过负面提示形式派生负面原型,通过原型对比损失,将锚定的句子嵌入与其对应的语义原型相近,并与负面原型及其他句子的原型相距较远。实验结果表明,与强基线模型相比,我们提出的方法在语义文本相似性、转移和聚类任务上效果显著。
Nov, 2022
本文提出一种基于伪符号 Bert(PT-Bert)的语义感知对比学习框架,可以有效地利用句子的伪符号空间表示,消除了句子长度和语法等表征对模型的影响,实现了对未标注文本的编码。通过构建同长度的正负样本对进行对比学习,我们的模型在六个标准语义文本相似性(STS)任务中优于现有的基准模型。
Mar, 2022
本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法,相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT,我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8%和 1.05%。
Jun, 2021
本文提出了一种对 BERT 进行微调的方法(Phrase-BERT),使其能够生成更强大的短语嵌入,Phrase-BERT 利用一个由短语描述形式多样的同义词集以及从 Books3 语料库中挖掘的大规模情境短语数据集生成模型,并在各种短语级相似性任务中优于基线。 此外,该文还将 Phrase-BERT 嵌入式与简单的自编码器相结合,构建了一种利用向量空间中最近邻搜索将主题解释为词和短语混合的短语主题模型。 众包评估表明,该短语主题模型比基线的单词和短语级主题模型产生更一致和有意义的主题,进一步验证了 Phrase-BERT 的效用。
Sep, 2021
利用无监督的句子表示学习方法,通过对输入句子进行转换,得到富含复杂语义信息的定长向量表示,消除了对标注数据的依赖。本文提出了一种两阶段的方法,通过理解和总结对预训练模型(如 BERT)的潜在能力进行开发,并通过精细调整对比学习损失函数和模板去噪技术来进一步提高性能。实验证明,所提出的 CoT-BERT 方法在无需其他文本表示模型或外部数据库的情况下超越了一系列强大的基准模型。
Sep, 2023
本文研究了对比学习中存在的偏见问题,提出了一种名为 DebCSE 的新型对比框架,通过逆倾向加权抽样方法选择高质量的正负样本对,以消除各种偏见的影响,从而提高句子嵌入的质量。在语义文本相似性基准测试中,DebCSE 的平均 Spearman 相关系数为 80.33%,显著优于最新的最先进模型。
Sep, 2023
我们提出了一种使用 Sentence-BERT(SBERT)和 RoBERTa 两种最先进的自然语言处理模型结合生成文档嵌入的新方法。通过将句子视为标记并为其生成嵌入,我们的方法可以捕捉文档内句子间和句子间的关系,从而生成更具语义丰富性和准确性的文档嵌入。通过对 Goodreads 数据集上的图书推荐任务进行实验,我们评估了我们的模型,并证明了其在生成嵌入方面的有效性。与仅使用 SBERT 生成的文档嵌入相比,我们使用 MULTI-BERT 模型生成的文档嵌入在嵌入质量方面始终表现更好,通过精确度作为评估指标,我们发现我们的模型能够捕捉到更细微的语义关系,从而实现更准确的推荐。总体而言,我们的结果证明了我们的方法的有效性,并表明这是一个改进推荐系统性能的有前途的方向。
Aug, 2023