双视角蒸馏 BERT 用于句子嵌入
本文介绍了 Sentence-BERT (SBERT),它是预训练 BERT 网络的修改版,利用孪生和三元组网络结构来推导语义上有意义的句子嵌入,可以使用余弦相似性进行比较,将 BERT / RoBERTa 的寻找最相似组合的时间从 65 小时降至大约 5 秒钟,并保持来自 BERT 的精度。在共同的 STS 任务和转移学习任务中,我们评价 SBERT 和 SRoBERTa,该方法优于其他最先进的句子嵌入方法。
Aug, 2019
该研究介绍一种基于知识蒸馏的 Distilled Sentence Embedding (DSE) 模型,旨在通过构建一个用于重构跨注意力模型得分的基于句子嵌入的学生模型,加速计算查询 - 候选句子对的相似度并在句子表示基准测试中达到最先进的性能。
Aug, 2019
本文提出了一种新的 Dual Attention Enhanced BERT 模型来提高 BERT 对句子对微妙差异的捕捉能力,该模型包含双重关注模块和自适应融合模块,可以显著提升在语义匹配领域的表现。
Oct, 2022
该论文重点研究了将文本信息构建为有用的嵌入表示,将其作为特征输入职位与求职者匹配模型。作者使用了一种 fine-tuning 的 Siamese Sentence-BERT 模型并解决了多语言和跨语言匹配等挑战。结果表明,作者的模型显著优于现有的基于 TF-IDF 加权特征向量和 BERT 嵌入表示的方法。此外,作者还发现该模型成功匹配了跨语言和多语言的文本内容。
Sep, 2021
本篇论文提出了一种多视图增强蒸馏框架,通过跨编解码器到对编解码器的多精细和提及相关部分的知识传输,从而有效地学习与不同提及相匹配的实体表示,实验表明该方法在几个实体链接基准上实现了最优性能。
May, 2023
使用 SimCSE 论文中的适用对比学习方法,将基于知识蒸馏模型 DistilBERT 的模型架构进行调整,以解决自然语言处理模型在语义文本相似度上效果不佳且过大无法部署为轻量级边缘应用的问题,最终得到的轻量级模型 DistilFace 在 STS 任务的 Spearmans 相关性上达到了 72.1,相比 BERT Base 提升了 34.2%。
Jan, 2024
本文提出了通过结合 Siamese 多视图编码器和共享解码器网络,将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训,我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现,平均准确率相对提升了 11.1%。我们还在跨视图单词鉴别和单词级语音识别任务中展示了实验结果。
Oct, 2019
该论文提出一种利用双向注意力和 SIAMESE BERT 捕捉标签文本中的暗示信息来进行文本分类的方法,该方法在使用标签文本时的性能明显优于现有的同类方法。
Sep, 2022
提出了一种跨模态关注蒸馏框架来训练双编码器模型,以用于视觉语言理解任务,如视觉推理和视觉问答,并证明使用这种框架可以在保持比融合编码器模型更快的推理速度的同时实现竞争性的性能表现。
Dec, 2021
本文提出了一种用于 Transformer 架构中 Siamese 自监督预训练的方法,通过多视角学习框架同步进行定位和区分,设计了两种自监督的预训练任务:多视区域检测和多视语义区分。
Mar, 2023