学习链接

Jul, 2019

Learning to Link

Maria-Florina Balcan, Travis Dick, Manuel Lang

TL;DR研究数据驱动的算法选择和度量学习以在聚类问题中同时学习最佳算法和度量。我们的工作考虑从基础度量函数中学习的凸组合的距离函数集合，为此设计了有效的学习算法，并对这些技术进行了全面的实证评估，表明它们可以显著提高聚类性能。

Abstract

Clustering is an important part of many modern data analysis pipelines, including network analysis and data retrieval. There are many different clustering algorithms developed by various communities, and it is often not clear which algorithm will give the best performance on a specific

clustering algorithms metric learning parameterized linkage distance functions empirical evaluation

发现论文，激发创造

距离度量学习教程：数学基础、算法、实验分析、前景与挑战（包括数学背景和详细算法解释的附录）

本教程提供了关于距离度量学习的理论基础和基础知识，以及最常见算法的全面实验分析，重点考虑降维和核化，在标准分类问题中评估所有算法的能力，并讨论了这个领域的未来前景和挑战。

Dec, 2018

特征向量和结构化数据的度量学习综述

本文系统地综述了度量学习的前沿研究进展，着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法，讨论了对于结构化数据的度量学习中仍存在的挑战，旨在给出度量学习近年来的发展方向。

Jun, 2013

具有泛化保证的监督度量学习

本篇论文提出一种新的核函数以及一种新的编辑相似性模型，可以更好地优化距离和相似度函数，提高 k 近邻算法的性能，并在学习相似性时考虑到泛化能力与算法的稳定性，解决了当前度量学习方法的局限性，为特征向量和结构化对象（如字符串或树）的度量学习提供了新方法。

Jul, 2013

两阶段度量学习

本文提出了一个新的两阶段度量学习算法，首先通过计算到一组固定锚点的相似度将每个学习实例映射到概率分布，然后在关联的统计流形上定义输入数据空间上的 Fisher 信息距离，这在输入数据空间中引入了一组具有独特特性的距离度量，不像核化度量学习，我们不需要要求相似度度量是半正定的，而且也可以被解释为具有良好定义的距离逼近的局部度量学习算法。我们在多个数据集上评估了其性能，它明显优于其他度量学习方法和支持向量机（SVM）。

May, 2014

基于参数化 Lloyd 家族的数据驱动聚类

本文研究了基于度量空间中的聚类点的算法和优化，提出了一种通用的类 Lloyd 算法的无限算法族，利用有效的学习算法从特定于应用程序的聚类实例分布中学习到了最佳聚类算法，包括著名的 k-means ++ 算法及其它。

Sep, 2018

可转移的深度度量学习用于聚类

提出了一种学习跨多个不同领域数据集应用的传输度量的框架，在使用基于嵌入空间的指定聚类的情况下，在少量训练集和浅层网络的情况下，我们在多个变量复杂度的数据集上实现与最新技术水平相当的结果。

Feb, 2023

最近邻分类的参数局部度量学习

本文介绍一种新的参数化定向 metric 学习方法，通过学习数据流形上的平滑 metric 矩阵函数，将本地度量作为区域不同点的锚定点上定义的基本度量的线性组合来学习，并应用 manifold 正则化来使学习到的 metric 矩阵函数沿着数据流形的测地线平滑变化，表现出极好的预测能力和可扩展性，并优于多种全局和局部的最先进的度量学习方法以及具有自动内核选择的支持向量机 (SVM)。

Sep, 2012

线性距离度量学习

本文提出了一种基于连续凸损失优化的简单优雅方法，用于线性距离度量学习，并针对不同的噪声模型推导了相应的损失函数。研究结果表明，即使数据存在噪声，只要样本充足就可以学习到地面事实线性度量，并提供相应的样本复杂度限制。此外，我们还提出了一种有效地将学习模型截断为低秩模型的方法，该方法可证明在损失函数和参数方面都能保持准确性，这是该领域首次出现这种结果。实验结果表明了理论结果的正确性。

Jun, 2023

无需一对一约束松弛的约束聚类和多核学习

本文提出了一种新的受限聚类算法，该算法可以在考虑已有对比信息的情况下最大程度地满足约束条件，而不会将已知的链接信息转化为距离信息，以此来高效地学习核与度量，并在各种公共数据集上的表现明显优于现有方法。同时，本文还探讨了该方法如何应用于大数据处理，可以有效提高可扩展性。

Mar, 2022

利用线性变换进行度量和核学习

本文研究了在高维数据情况下的度量学习问题，提出了一种基于 LogDet 距离的学习线性变换的框架，并证明了它可以被有效地核化以学习任意高维空间中的度量，同时还可以将广泛类别的凸损失函数类似地核化，以扩展度量学习的潜在应用。同时，我们证明了这种方法在计算机视觉和文本挖掘等真实世界问题中的有效性。

Oct, 2009