广义 Robinson-Foulds 度量
本论文基于引用的参考系统树的实验证据分布为基础,建立了一种基于 Kantorovich-Rubinstein 距离的 UniFrac 方法,并且将其扩展为 $L^p$ Zolotarev 度量,实现了与两个社区之间没有差异的自然置换测试的 $p$ 值。
May, 2010
提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法,证明它是度量,称之为 “相似度量”,并演示了两个应用:比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。
Nov, 2001
本论文提出了一个基于三元组比较的新型随机森林算法,用于度量空间中的数据回归和分类,不需要数据点的距离或具体表示方法,并证明其与其他直接访问数据表示的方法相当竞争力强。
Jun, 2018
本文研究度量空间之间的 Gromov-Hausdorff 距离问题,证明了对于一对树的测地度量空间,很难以小于 3 的因子近似计算该距离,同时提供了一种新的多项式时间算法,可在 O (min {n, sqrt {rn}}) 下近似计算度量树的 Gromov-Hausdorff 距离,其中 r 是两棵树中最长边长与最短边长的比率。
Sep, 2015
我们提出了一种新的 “双度量” 框架,用于设计最近邻数据结构。我们的框架基于两个不相似性函数:一个准确但计算代价高的基准度量,和一个廉价但不太准确的代理度量。我们在理论和实践中展示了如何仅使用代理度量构建数据结构,使查询过程达到基准度量的准确性,同时只使用有限次对两个度量的调用。我们的理论结果在两个最流行的最近邻搜索算法(DiskANN 和 Cover Tree)中实例化了该框架。对于任意一个这两个算法,只要用于构建数据结构的代理度量相对于基准度量有界因子的近似,我们的数据结构都能在基准度量方面获得任意好的近似保证。在实证方面,我们将该框架应用于具有计算代价差异的两个机器学习模型评估的文本检索问题。我们观察到,在 MTEB 基准测试中,对于几乎所有的数据集,我们的方法能够在准确度和效率之间获得相比其他方法(如重新排序)更好的平衡。
Jun, 2024
本文提出了一个新的两阶段度量学习算法,首先通过计算到一组固定锚点的相似度将每个学习实例映射到概率分布,然后在关联的统计流形上定义输入数据空间上的 Fisher 信息距离,这在输入数据空间中引入了一组具有独特特性的距离度量,不像核化度量学习,我们不需要要求相似度度量是半正定的,而且也可以被解释为具有良好定义的距离逼近的局部度量学习算法。我们在多个数据集上评估了其性能,它明显优于其他度量学习方法和支持向量机(SVM)。
May, 2014
该论文提出了一种基于嵌入的新型度量学习方法,通过嵌入树节点向量来学习编辑距离,使欧几里得距离支持类别判别并提高分类准确率,该方法在包括计算机科学、生物医学和自然语言处理数据集的六个基准数据集上优于目前树形度量学习技术的最新技术。
May, 2018
使用基于随机森林的分类器来学习单个度量标准,实现在特征空间内自适应地调整距离函数,该方法在多个数据集上表现出色,并且在准确性和速度方面均优于现有的全局和多度量方法。
Jan, 2012