具有特征插入和删除的最小独立置换

Aug, 2023

具有特征插入和删除的最小独立置换

Minwise-Independent Permutations with Insertion and Deletion of Features

Rameshwar Pratap, Raghav Kulkarni

TL;DR通过研究算法minHash在动态插入和删除特征的情况下的表现，我们提出了一种高效、准确且易于实现的算法，通过适应性调整minHash草图，显著加快运行时间，并提供与从头开始运行minHash相当的性能。

Abstract

In their seminal work, Broder \textit{et. al.}~\citep{BroderCFM98} introduces the $\mathrm{minHash}$ algorithm that computes a low-dimensional sketch of high-dimensional binary data that closely approximates pairwise Jaccard similarity. Since its invention, $\mathrm{minHash}$ has been commonly used by practitioners in various big data applications. Further,

发现论文，激发创造

大规模学习的哈希算法

本文提出了一种简单有效的大规模学习方案，结合学习算法（如SVM和逻辑回归）的b位minwise哈希可以自然地集成，大规模问题可以极其高效地解决，并与Vowpal Wabbit算法进行比较。

Jun, 2011

一种置换哈希方法的密集性改进

本文提出了一种新的稠密化策略，使 $(K,L)$ 参数的局部敏感哈希 (Locality Sensitive Hashing)的 minwise 哈希算法在查询处理成本上从 $O(dKL)$ 降至仅 $O(d + KL)$，针对非常稀疏的数据集，该改进的技术表现更好，并且在查询处理成本上与现有程序相同。

Jun, 2014

MinHash 比 SimHash 更具优势的防御能力

本研究探讨了在大规模数据处理应用中，MinHash和SimHash是两种广泛采用的局部敏感哈希算法。研究表明，当数据为二进制时，MinHash几乎总是优于SimHash；本研究还提供了基于相似性和余弦相似性的算法比较方法。

Jul, 2014

简单、健壮且最优排名的配对比较

本研究旨在通过成对比较的数据形式，使用 Copeland 计数算法实现对 n 个项目的排序，使其具有计算效率高，鲁棒性强，接近信息论极限等特点，并将结果扩展到汉明距离度量下的近似恢复问题和任意错误要求条件下的恢复问题。

Dec, 2015

相似性估计和维度减少的实用哈希函数

该论文研究了哈希在机器学习中降维的基本用途，比较了各种哈希方案的性能，主要关注该领域中的两个应用：相似度估计与特征哈希。作者发现 Dahlgaard 等人的混合制表哈希是一种在许多应用中表现良好的伪随机哈希函数，其性能与真随机哈希函数相似，比 MurmurHash3 快 40%。

Nov, 2017

Janossy Pooling：学习变尺寸输入的深度置换不变函数

本文提出了Janossy pooling方法，可以将置换不变函数表示为输入序列的所有重新排序应用置换敏感函数的平均值，并且通过三种近似方法实现了可计算性可控，实验结果表明该方法在置换不变函数的构建上表现出了比当前最先进的方法更好的性能。

Nov, 2018

LSF-Join: 基于局部敏感过滤的偏斜分布下分布式全对集合相似性算法

提出一种基于局部敏感过滤的随机选择算法LSF-Join，可以高效地在大数据集上以近似的方式查找所有匹配对，特别适用于高维数据集，解决了以往算法在大规模数据上无法适用的问题。

Mar, 2020

Jaccard指数的进一步推广

对Jaccard指数及其相关的一些扩展进行理论研究，包括一种新的巧合指数，该指数在比较两个实体集时可以考虑相对内含度的水平，适用于连续向量空间、多重集、密度和通用标量场的扩展，以及量化两个随机变量之间的联合相互依赖性的方法。

Oct, 2021

差分隐私一次置换哈希和按位一致加权采样

本研究将差分隐私与一种名为OPH的子线性接近邻近搜索算法相结合，提出了DP-OPH框架，并通过实验比较DP-OPH与DP-MH的性能，同时将其技术扩展到非二进制数据的分类任务中。

Jun, 2023

使用置换辅助的熵维度降低线性可扩展学习平滑低维模式

该研究介绍了一种基于欧式平滑度作为模式质量标准的无监督熵正则化迭代优化问题，能够高效地从高维数据中提取出稀疏的、经过排列的低维平滑模式，有效地实现了降维和特征提取，且在实际应用中能够识别同时最小化破产风险的平滑转换模式。

Jun, 2023