监督式语言模型微调的小样本场景距离度量损失函数

Nov, 2022

监督式语言模型微调的小样本场景距离度量损失函数

Distance Metric Learning Loss Functions in Few-Shot Scenarios of Supervised Language Models Fine-Tuning

Witold Sosnowski, Karolina Seweryn, Anna Wróblewska, Piotr Gawrysiak

TL;DR本文研究了距离度量学习 (Distance Metric Learning，DML) 损失函数对用于分类任务的语言模型有监督微调的影响。在实验中，我们使用 SentEval Transfer Tasks 数据集，发现使用 DML 损失函数可以在少样本情况下提高 RoBERTa-large 模型在下游分类任务中的性能，使用 SoftTriple 损失微调的模型可以比使用标准分类交叉熵损失函数的模型取得更好的结果。同时，我们使用可解释性技术对模型的可靠性和结果进行了全面分析。

Abstract

This paper presents an analysis regarding an influence of the Distance Metric Learning (DML) loss functions on the supervised fine-tuning of the language models for classification tasks. We experimented with know

distance metric learning fine-tuning language models softtriple loss classification tasks

发现论文，激发创造

重新审视距离度量学习在少样本自然语言分类中的应用

本论文研究了距离度量学习 (Distance Metric Learning) 对少样本学习下的监督学习语言模型 Fine-tuning 在自然语言处理 (NLP) 分类任务中的影响，并发现使用基于代理的 DML 损失有助于模型的精调和推理，尤其是使用 CCE（分类交叉熵）和 ProxyAnchor Loss 的结合模型，其平均性能优于仅使用 CCE 的模型，提高了 3.27 个百分点 -- 具体取决于训练数据集的不同。

Nov, 2022

SoftTriple Loss: 无需三元组采样的深度度量学习

通过使用 SoftTriple loss 函数中每一个类别拥有多个中心的方式，可优化浅层距离计量学习算法，而无需采样。

Sep, 2019

自适应密度判别度量学习

本文针对之前的距离度量学习算法中存在的一些问题，提出了一种通过分布模型在表示空间中自适应评估相似性，并通过惩罚类别分布重叠实现局部判别的新方法，在多项任务上取得了最新的分类结果，并提高了所学表示的属性集中度和层次恢复能力。

Nov, 2015

使用代理实现无需繁琐的距离度量学习

使用 proxy 点的三元组损失函数能够更快速地优化距离度量学习，提高零样本学习数据集的精度至多 15％，且比其他三元组损失函数的收敛速度块 3 倍。

Mar, 2017

转移度量学习：算法、应用和展望

本文介绍了关于迁移测度学习的分类和度量传递策略，包括直接度量逼近、子空间逼近、距离逼近和分布逼近。同时，总结和探讨了迁移测度学习的不同方法及其应用，并指出了未来可能的研究方向和挑战。

Oct, 2018

深度度量学习的排序列表损失

该研究提出一个新的排名列表损失函数来解决现有排名损失函数存在的两个限制，即忽略一些有用的实例和压缩数据分布，以实现在深度度量学习中更快的收敛和更好的性能。

Mar, 2019

大规模距离度量学习及其不确定性

本文提出了一种保持边界的度量学习框架，同时学习距离度量和潜在样本。该方法在处理大规模数据集时具有高效性，并且可以使学习的度量对数据不确定性具有鲁棒性，并且通过实验证明了该方法的有效性和高效性。

May, 2018

引导式深层度量学习

本文提出了一种新的由两个独立模型构成的度量学习结构 Guided Deep Metric Learning，通过使用 Few-Shot Learning 的角度来生成一个基于带标签数据的先验知识的减少的假设空间，之后通过离线的知识蒸馏方案来指导或规则化学生模型的决策边界，提高在分布偏移下的一般化，并获得了高达 40% 的 (Recall@1, CIFAR10) 改进。

Jun, 2022

密度自适应的深度度量学习

本论文提出将数据的密度测量集成到 DML 的优化框架中，以在端到端的训练过程中自适应平衡类间相似性和类内变异性，通过在三种嵌入方式上增加密度适应性，不断地在三个公共数据集上展示清晰的改善。

Sep, 2019

深层度量学习的群体损失

本文提出了 Group Loss 损失函数，基于可微的标签传播方法实现了嵌入在奇异样本中的相似性、不同群组间的低密度特征，得到了用于聚类和图像检索的先进结果。

Dec, 2019