一种新的 Burrows Wheeler 变换 Markov 距离

AAAIDec, 2019

一种新的 Burrows Wheeler 变换 Markov 距离

A New Burrows Wheeler Transform Markov Distance

Edward Raff, Charles Nicholas, Mark McLean

TL;DR介绍了以往研究基于压缩算法的 Burrows Wheeler Transform 在生物信息学中的距离度量问题，提出了其新的替代方案 Burrows Wheeler Markov Distance，可适用于 DNA 序列聚类和恶意软件分类任务，并能提供显著改进的聚类性能。

Abstract

Prior work inspired by compression algorithms has described how the Burrows Wheeler Transform can be used to create a distance measure for bioinformatics problems. We describe issues with this approach that were not widely known, and introduce our new →

burrows wheeler transform bioinformatics burrows wheeler markov distance dna sequence clustering malware classification

发现论文，激发创造

重新评估词移距离

本文讨论了词移距离（WMD）及其与传统基线方法如词袋（BOW）和 TF-IDF 的比较，指出若使用正确的预处理方法，即 L1 正则化，则传统基线方法与 WMD 具有相近的性能，同时发现 WMD 与 L1 正则化 BOW 之间存在类比关系。

May, 2021

通过嵌入之间的距离特征加速词移距离及其变体

本文提出了一种加速 Word Mover's Distance 和 Relaxed Word Mover's Distance 的方法，并在十个数据集上进行了实验，结果表明该方法在保持错误率不变的前提下极大地加速了文档分类任务。

Dec, 2019

探究词移距离扩展

本论文研究了 WMD 的几个可能的扩展，并尝试将语料库中单词的频率作为加权因子，以及探索单词向量空间的几何性质。通过在六个文档分类数据集中验证可能的扩展，发现一些提出的扩展在 K 最近邻分类错误方面表现更好。

Feb, 2022

使用 GPU 加速的线性复杂度放松版词移距离

该研究论文探讨了处理非结构化文本数据的各种方法，并提出了一个低复杂度的线性 RWMD 实现来改进基于 GPU 的分布式查询性能，该实现映射到 GPU 上，大大提高了计算效率。

Nov, 2017

WMDecompose: 利用词移距离可解释性特征在社会文化分析中的框架

提出了一种名为 WMDecompose 的模型和 Python 库，用于将文档级别的距离分解为单词级别的距离，并将单词聚类，以保留有用的词汇信息并进行分析，其在社会科学领域的应用探讨了阴谋论和保守派美国话语之间的相互关系，并提出一种可重复采样文档对的方法，以防止由于不良采样实践而导致的不可靠结果的外推。

Oct, 2021

利用自注意矩阵提高词移距离

本文提出一种基于 BERT 的自注意力矩阵和融合 Gromov-Wasserstein 距离的方法，用于计算两个句子之间的语义相似度，实验证明该方法可以在语义相似性和改进 WMD 方面表现优异。

Nov, 2022

准曼哈顿瓦瑟斯坦距离

Quasi Manhattan Wasserstein Distance (QMWD) 是一种指标，用于衡量两个矩阵之间的差异，它将 Wasserstein Distance 的元素与特定变换相结合。与曼哈顿 Wasserstein 距离 (MWD) 相比，QMWD 在保持准确性的同时提供了更好的时间和空间复杂性。QMWD 在大型数据集或计算资源有限的情况下特别有优势。本文详细介绍了 QMWD 的计算方法、复杂性分析，并与 WD 和 MWD 进行了比较。

Oct, 2023

Word Mover's Embedding: 从 Word2vec 到文档嵌入

本文提出了一种名为 Word Mover's Embedding (WME) 的崭新方法，用于建立无监督文本分类的文档嵌入，同时比较了此方法与当前最佳方法在 9 个基准文本分类数据集和 22 个文本相似性任务上表现，结果均表明 WME 能够达到或超越当前最佳方法，并在短文本问题上获得更高的准确性。

Oct, 2018

相似度度量

提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法，证明它是度量，称之为 “相似度量”，并演示了两个应用：比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。

Nov, 2001

重新评估图像字幕自动评估指标

本文通过一系列的实验，深入评估了现有的图像字幕度量，并探索了最近提出的 Word Mover's Distance（WMD）文档度量在图像字幕中的应用。结果表明，WMD 相比其他度量具有较强的优势。

Dec, 2016