一种新的 Burrows Wheeler 变换 Markov 距离
本文讨论了词移距离(WMD)及其与传统基线方法如词袋(BOW)和 TF-IDF 的比较,指出若使用正确的预处理方法,即 L1 正则化,则传统基线方法与 WMD 具有相近的性能,同时发现 WMD 与 L1 正则化 BOW 之间存在类比关系。
May, 2021
本文提出了一种加速 Word Mover's Distance 和 Relaxed Word Mover's Distance 的方法,并在十个数据集上进行了实验,结果表明该方法在保持错误率不变的前提下极大地加速了文档分类任务。
Dec, 2019
本论文研究了 WMD 的几个可能的扩展,并尝试将语料库中单词的频率作为加权因子,以及探索单词向量空间的几何性质。通过在六个文档分类数据集中验证可能的扩展,发现一些提出的扩展在 K 最近邻分类错误方面表现更好。
Feb, 2022
该研究论文探讨了处理非结构化文本数据的各种方法,并提出了一个低复杂度的线性 RWMD 实现来改进基于 GPU 的分布式查询性能,该实现映射到 GPU 上,大大提高了计算效率。
Nov, 2017
提出了一种名为 WMDecompose 的模型和 Python 库,用于将文档级别的距离分解为单词级别的距离,并将单词聚类,以保留有用的词汇信息并进行分析,其在社会科学领域的应用探讨了阴谋论和保守派美国话语之间的相互关系,并提出一种可重复采样文档对的方法,以防止由于不良采样实践而导致的不可靠结果的外推。
Oct, 2021
本文提出一种基于 BERT 的自注意力矩阵和融合 Gromov-Wasserstein 距离的方法,用于计算两个句子之间的语义相似度,实验证明该方法可以在语义相似性和改进 WMD 方面表现优异。
Nov, 2022
Quasi Manhattan Wasserstein Distance (QMWD) 是一种指标,用于衡量两个矩阵之间的差异,它将 Wasserstein Distance 的元素与特定变换相结合。与曼哈顿 Wasserstein 距离 (MWD) 相比,QMWD 在保持准确性的同时提供了更好的时间和空间复杂性。QMWD 在大型数据集或计算资源有限的情况下特别有优势。本文详细介绍了 QMWD 的计算方法、复杂性分析,并与 WD 和 MWD 进行了比较。
Oct, 2023
本文提出了一种名为 Word Mover's Embedding (WME) 的崭新方法,用于建立无监督文本分类的文档嵌入,同时比较了此方法与当前最佳方法在 9 个基准文本分类数据集和 22 个文本相似性任务上表现,结果均表明 WME 能够达到或超越当前最佳方法,并在短文本问题上获得更高的准确性。
Oct, 2018
提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法,证明它是度量,称之为 “相似度量”,并演示了两个应用:比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。
Nov, 2001
本文通过一系列的实验,深入评估了现有的图像字幕度量,并探索了最近提出的 Word Mover's Distance(WMD)文档度量在图像字幕中的应用。结果表明,WMD 相比其他度量具有较强的优势。
Dec, 2016