可伸缩和强健的集合相似性连接

Jul, 2017

Scalable and robust set similarity join

Tobias Christiani, Rasmus Pagh, Johan Sivertsen

TL;DR本文提出了一种新的集合相似性连接的随机算法，可以实现任何期望的召回率，这种方法在数据不具有罕见令牌结构时也具有鲁棒性，本文的方法在很大程度上提高了现有方法的效率。

Abstract

set similarity join is a fundamental and well-studied database operator. It is usually studied in the exact setting where the goal is to compute all pairs of sets that exceed a given similarity threshold (measured e.g. as Jaccard similarity). But →

发现论文，激发创造

LSF-Join: 基于局部敏感过滤的偏斜分布下分布式全对集合相似性算法

提出一种基于局部敏感过滤的随机选择算法 LSF-Join，可以高效地在大数据集上以近似的方式查找所有匹配对，特别适用于高维数据集，解决了以往算法在大规模数据上无法适用的问题。

Mar, 2020

PASS-JOIN: 基于划分的相似性连接方法

本文研究了带有编辑距离约束的字符串相似性联接，提出了一种基于分割的方法 ——Pass-Join，并采用了高效的子串选择和剪枝技术，在实际数据集上显示出比现有算法更高效的结果。

Nov, 2011

ShallowBlocker：提升用于阻塞的集合相似性连接

本文提出了一种基于传统字符串相似度度量的无需人工干预的阻塞方法：ShallowBlocker，它使用了新颖的混合集相似度连接方法，结合绝对相似度、相对相似度和本地基数条件，并采用一种有效的预候选过滤器代替大小过滤器。我们展示了该方法在可扩展的无监督和有监督阻塞上取得了最先进的成对效果。

Dec, 2023

EmbedJoin: 基于嵌入的高效编辑相似度连接

本文提出了一种基于度量嵌入的算法 EmbedJoin 来解决字符串编辑距离小于阈值 K 的字符串之间的匹配问题，该算法在长字符串和大距离阈值方面具有很好的扩展性能，并在一系列实验中证明其显著优于之前的算法。

Feb, 2017

探索稠密自监督表示学习中的集合相似度

通过引入集合相似度 (SetSim) 方法进行密集的自监督表示学习，通过建立相应集是实现其噪声滤波和保持内部一致性，通过大量的实验证明，该方法优于现有的目标检测、关键点检测、实例分割和语义分割方法。

Jul, 2021

多尺度卷积集匹配学习的高效图相似度计算

本文介绍了 GraphSim 模型，该模型从直接匹配两组节点嵌入的角度解决了图相似性计算问题，获得了在四个真实世界图数据集上的最先进性能。

Sep, 2018

词向量集之间的相关性

研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Oct, 2019

Jaccard 指数的进一步推广

对 Jaccard 指数及其相关的一些扩展进行理论研究，包括一种新的巧合指数，该指数在比较两个实体集时可以考虑相对内含度的水平，适用于连续向量空间、多重集、密度和通用标量场的扩展，以及量化两个随机变量之间的联合相互依赖性的方法。

Oct, 2021

内积相似性连接的复杂性

该论文系统研究了内积相似性连接问题，提出了新的上下界和基于线性草图的索引方法，并探讨了不对称性的影响。

Oct, 2015

基于超立方体的大规模相似度连接、边等周性和距离相关性

该研究探讨了分布式协议用于在大型数据集中查找所有相似向量对的方法，重点关注 Hamming 距离，提出了一种新型组合优化问题来捕捉分析上的核心，展示了边等周形状的设计方法和新的距离相关性界限。

Nov, 2016