本文提出了一种使用句法分析树的改进型 Word Mover's Distance(SynWMD)方法,它建立在基于句子的句法分析树中的词共现统计上,并考虑了每个单词的重要性和它们之间的局部句法结构,通过在 6 种文本语义相似度(STS)数据集和 4 个句子分类数据集上的实验证明 SynWMD 在提高评估精度方面取得了重大突破。
Jun, 2022
本文讨论了词移距离(WMD)及其与传统基线方法如词袋(BOW)和 TF-IDF 的比较,指出若使用正确的预处理方法,即 L1 正则化,则传统基线方法与 WMD 具有相近的性能,同时发现 WMD 与 L1 正则化 BOW 之间存在类比关系。
May, 2021
本论文研究了 WMD 的几个可能的扩展,并尝试将语料库中单词的频率作为加权因子,以及探索单词向量空间的几何性质。通过在六个文档分类数据集中验证可能的扩展,发现一些提出的扩展在 K 最近邻分类错误方面表现更好。
Feb, 2022
本文提出了一种名为 Word Mover's Embedding (WME) 的崭新方法,用于建立无监督文本分类的文档嵌入,同时比较了此方法与当前最佳方法在 9 个基准文本分类数据集和 22 个文本相似性任务上表现,结果均表明 WME 能够达到或超越当前最佳方法,并在短文本问题上获得更高的准确性。
Oct, 2018
本文提出了一种加速 Word Mover's Distance 和 Relaxed Word Mover's Distance 的方法,并在十个数据集上进行了实验,结果表明该方法在保持错误率不变的前提下极大地加速了文档分类任务。
Dec, 2019
本文提出一种基于跨语言句嵌入的无监督打分函数,用于计算不同语言中文档之间的语义距离,从而指导文档对齐算法以适当地匹配跨语言 Web 文档,并在不同语言对中显著提高对齐效果。
Jan, 2020
该研究论文探讨了处理非结构化文本数据的各种方法,并提出了一个低复杂度的线性 RWMD 实现来改进基于 GPU 的分布式查询性能,该实现映射到 GPU 上,大大提高了计算效率。
Nov, 2017
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
本研究旨在解决文本相似性度量中的挑战,提出了一种基于词向量旋转的新方法,利用词向量的模长和角度区分词的重要性和相似性,并通过此方法,以优化输送成本方式计算对齐相似度,相较于其他传统对齐方法和基线模型更为优越。
Apr, 2020
本文提出了一种新的衡量文本差异的度量方法:Word Mover's Distance,通过加入词汇权重和使用熵正则化方法,可以提高跨语言文档检索任务的效果并取得令人瞩目的改进,与多个基线相比表现提高幅度显著。
May, 2018