广义 Robinson-Foulds 度量

Jul, 2013

The generalized Robinson-Foulds metric

Sebastian Böcker, Stefan Canzar, Gunnar W. Klau

TL;DR该研究提出了 RF 指标一种自然的扩展方式，该指标不仅考虑相同的分类单元，还考虑相似的分类单元，并且需要保持树的结构，用一个简单的整数线性规划来计算广义 RF 指标，发现与不保持树结构的匹配方式有显着不同。

Abstract

The Robinson-Foulds (RF) metric is arguably the most widely used measure of phylogenetic tree similarity, despite its well-known shortcomings: For example, moving a single taxon in a tree can result in a tree tha

phylogenetic tree similarity rf metric matching tree structure

发现论文，激发创造

环境序列样本的系统发育 Kantorovich-Rubinstein 度量

本论文基于引用的参考系统树的实验证据分布为基础，建立了一种基于 Kantorovich-Rubinstein 距离的 UniFrac 方法，并且将其扩展为 $L^p$ Zolotarev 度量，实现了与两个社区之间没有差异的自然置换测试的 $p$ 值。

May, 2010

相似度度量

提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法，证明它是度量，称之为 “相似度量”，并演示了两个应用：比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。

Nov, 2001

基于比较的随机森林

本论文提出了一个基于三元组比较的新型随机森林算法，用于度量空间中的数据回归和分类，不需要数据点的距离或具体表示方法，并证明其与其他直接访问数据表示的方法相当竞争力强。

Jun, 2018

计算度量树的 Gromov-Hausdorff 距离

本文研究度量空间之间的 Gromov-Hausdorff 距离问题，证明了对于一对树的测地度量空间，很难以小于 3 的因子近似计算该距离，同时提供了一种新的多项式时间算法，可在 O (min {n, sqrt {rn}}) 下近似计算度量树的 Gromov-Hausdorff 距离，其中 r 是两棵树中最长边长与最短边长的比率。

Sep, 2015

超度空间内的系统发育树

本篇论文讨论了用于进化模型中的标准统计方法在遗传组序列数据中的可靠性，并引入了一些自然度量空间，以判断不同参数化方法之间的适用性和采样数据中的总结树。

Oct, 2014

一种用于快速相似搜索的双指标框架

我们提出了一种新的 “双度量” 框架，用于设计最近邻数据结构。我们的框架基于两个不相似性函数：一个准确但计算代价高的基准度量，和一个廉价但不太准确的代理度量。我们在理论和实践中展示了如何仅使用代理度量构建数据结构，使查询过程达到基准度量的准确性，同时只使用有限次对两个度量的调用。我们的理论结果在两个最流行的最近邻搜索算法（DiskANN 和 Cover Tree）中实例化了该框架。对于任意一个这两个算法，只要用于构建数据结构的代理度量相对于基准度量有界因子的近似，我们的数据结构都能在基准度量方面获得任意好的近似保证。在实证方面，我们将该框架应用于具有计算代价差异的两个机器学习模型评估的文本检索问题。我们观察到，在 MTEB 基准测试中，对于几乎所有的数据集，我们的方法能够在准确度和效率之间获得相比其他方法（如重新排序）更好的平衡。

Jun, 2024

一种形式上健壮的时间序列距离度量

本文提出了一种新的距离度量方法来解决时间序列数据在分类中被任意数据污染的鲁棒性问题，并在 k 近邻时间序列分类中得到了有竞争力的分类精度。

Aug, 2020

两阶段度量学习

本文提出了一个新的两阶段度量学习算法，首先通过计算到一组固定锚点的相似度将每个学习实例映射到概率分布，然后在关联的统计流形上定义输入数据空间上的 Fisher 信息距离，这在输入数据空间中引入了一组具有独特特性的距离度量，不像核化度量学习，我们不需要要求相似度度量是半正定的，而且也可以被解释为具有良好定义的距离逼近的局部度量学习算法。我们在多个数据集上评估了其性能，它明显优于其他度量学习方法和支持向量机（SVM）。

May, 2014

自适应符号嵌入的树编辑距离学习：补充材料和结果

该论文提出了一种基于嵌入的新型度量学习方法，通过嵌入树节点向量来学习编辑距离，使欧几里得距离支持类别判别并提高分类准确率，该方法在包括计算机科学、生物医学和自然语言处理数据集的六个基准数据集上优于目前树形度量学习技术的最新技术。

May, 2018

基于隐含成对位置相关性的度量学习随机森林

使用基于随机森林的分类器来学习单个度量标准，实现在特征空间内自适应地调整距离函数，该方法在多个数据集上表现出色，并且在准确性和速度方面均优于现有的全局和多度量方法。

Jan, 2012