比较文档组的框架
本论文提出了一种基于图表达的文本相似性和差异性总结方法,使用 “spreading activation” 技术在两个相关文档中发现与主题语义相关的节点,并将两个文档的激活图匹配以获得相似和不同之处的图。
Dec, 1997
本文提出了一种基于分割二分图的新型数据聚类方法,旨在最小化未匹配的顶点之间的边权重总和,通过边权重矩阵的奇异值分解来近似解决这个最小化问题并且在文档聚类问题上取得了显著的效果。
Aug, 2001
本文提出了一种双聚类算法框架用于解决聚类、社区检测和多参数模型估计等问题,首次将多参数模型的任务形式化为共识问题,并且证明了这些任务的等效性,并与计算 Gestalt 程序建立了联系。在图像处理应用中,通过广泛的实验结果展示了该算法的有效性。
Apr, 2014
本文提出了一种基于项目投影的共同聚类算法,以解决处理双向图时向量空间模型表现的问题。通过在聚类检索任务中测试,该算法能够产生平衡良好的聚类和相关项目,并导致高的检索得分。
Sep, 2021
该论文基于 “概念交互图” 模型,通过一系列编码技术比较包含相同概念顶点的句子,并通过图卷积网络聚合匹配信号来匹配文章。在两个数据集上进行的广泛评估表明,该方法在自然语言匹配方面显著优于众多最先进的方法。
Feb, 2018
我们提出了两种方法,将文档对表示为包含顺序信息的有向稀疏 JCIG 图,其中我们使用 Siamese 编码器和 GCN 构建的稀疏有向图模型在不包含顺序信息的数据集上达到与基线模型相当的结果,在包含顺序信息的教学文档数据集上优于基线模型十个百分点。
Feb, 2024
我们提出了一种新的 “双度量” 框架,用于设计最近邻数据结构。我们的框架基于两个不相似性函数:一个准确但计算代价高的基准度量,和一个廉价但不太准确的代理度量。我们在理论和实践中展示了如何仅使用代理度量构建数据结构,使查询过程达到基准度量的准确性,同时只使用有限次对两个度量的调用。我们的理论结果在两个最流行的最近邻搜索算法(DiskANN 和 Cover Tree)中实例化了该框架。对于任意一个这两个算法,只要用于构建数据结构的代理度量相对于基准度量有界因子的近似,我们的数据结构都能在基准度量方面获得任意好的近似保证。在实证方面,我们将该框架应用于具有计算代价差异的两个机器学习模型评估的文本检索问题。我们观察到,在 MTEB 基准测试中,对于几乎所有的数据集,我们的方法能够在准确度和效率之间获得相比其他方法(如重新排序)更好的平衡。
Jun, 2024
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
本文研究了基于图的连接结构和先前的节点信息(我们称之为查询向量)来排名双分图顶点的问题,并介绍了一种新的解决方案 BiRank,该方案通过迭代分配分数,最终收敛为唯一的静态排序,并且展示了其在实际应用上的灵活性和实用性。
Aug, 2017