利用自注意矩阵提高词移距离

Nov, 2022

Improving word mover's distance by leveraging self-attention matrix

Hiroaki Yamagiwa, Sho Yokoi, Hidetoshi Shimodaira

TL;DR本文提出一种基于 BERT 的自注意力矩阵和融合 Gromov-Wasserstein 距离的方法，用于计算两个句子之间的语义相似度，实验证明该方法可以在语义相似性和改进 WMD 方面表现优异。

Abstract

Measuring the semantic similarity between two sentences is still an important task. The word mover's distance (WMD) computes the similarity via the optimal alignment between the sets of word embeddings. However,

发现论文，激发创造

SynWMD：一种用于句子相似度评估的基于语法的词移距离算法

本文提出了一种使用句法分析树的改进型 Word Mover's Distance（SynWMD）方法，它建立在基于句子的句法分析树中的词共现统计上，并考虑了每个单词的重要性和它们之间的局部句法结构，通过在 6 种文本语义相似度（STS）数据集和 4 个句子分类数据集上的实验证明 SynWMD 在提高评估精度方面取得了重大突破。

Jun, 2022

重新评估词移距离

本文讨论了词移距离（WMD）及其与传统基线方法如词袋（BOW）和 TF-IDF 的比较，指出若使用正确的预处理方法，即 L1 正则化，则传统基线方法与 WMD 具有相近的性能，同时发现 WMD 与 L1 正则化 BOW 之间存在类比关系。

May, 2021

探究词移距离扩展

本论文研究了 WMD 的几个可能的扩展，并尝试将语料库中单词的频率作为加权因子，以及探索单词向量空间的几何性质。通过在六个文档分类数据集中验证可能的扩展，发现一些提出的扩展在 K 最近邻分类错误方面表现更好。

Feb, 2022

Word Mover's Embedding: 从 Word2vec 到文档嵌入

本文提出了一种名为 Word Mover's Embedding (WME) 的崭新方法，用于建立无监督文本分类的文档嵌入，同时比较了此方法与当前最佳方法在 9 个基准文本分类数据集和 22 个文本相似性任务上表现，结果均表明 WME 能够达到或超越当前最佳方法，并在短文本问题上获得更高的准确性。

Oct, 2018

通过嵌入之间的距离特征加速词移距离及其变体

本文提出了一种加速 Word Mover's Distance 和 Relaxed Word Mover's Distance 的方法，并在十个数据集上进行了实验，结果表明该方法在保持错误率不变的前提下极大地加速了文档分类任务。

Dec, 2019

基于跨语言句子移位距离的大规模多语言文档对齐

本文提出一种基于跨语言句嵌入的无监督打分函数，用于计算不同语言中文档之间的语义距离，从而指导文档对齐算法以适当地匹配跨语言 Web 文档，并在不同语言对中显著提高对齐效果。

Jan, 2020

使用 GPU 加速的线性复杂度放松版词移距离

该研究论文探讨了处理非结构化文本数据的各种方法，并提出了一个低复杂度的线性 RWMD 实现来改进基于 GPU 的分布式查询性能，该实现映射到 GPU 上，大大提高了计算效率。

Nov, 2017

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016

词语旋转距离

本研究旨在解决文本相似性度量中的挑战，提出了一种基于词向量旋转的新方法，利用词向量的模长和角度区分词的重要性和相似性，并通过此方法，以优化输送成本方式计算对齐相似度，相较于其他传统对齐方法和基线模型更为优越。

Apr, 2020

使用正则化的 Wasserstein 距离进行跨语言文档检索

本文提出了一种新的衡量文本差异的度量方法：Word Mover's Distance，通过加入词汇权重和使用熵正则化方法，可以提高跨语言文档检索任务的效果并取得令人瞩目的改进，与多个基线相比表现提高幅度显著。

May, 2018