具有特征插入和删除的最小独立置换
本文提出了一种简单有效的大规模学习方案,结合学习算法(如SVM和逻辑回归)的b位minwise哈希可以自然地集成,大规模问题可以极其高效地解决,并与Vowpal Wabbit算法进行比较。
Jun, 2011
本文提出了一种新的稠密化策略,使 $(K,L)$ 参数的局部敏感哈希 (Locality Sensitive Hashing)的 minwise 哈希算法在查询处理成本上从 $O(dKL)$ 降至仅 $O(d + KL)$,针对非常稀疏的数据集,该改进的技术表现更好,并且在查询处理成本上与现有程序相同。
Jun, 2014
本研究探讨了在大规模数据处理应用中,MinHash和SimHash是两种广泛采用的局部敏感哈希算法。研究表明,当数据为二进制时,MinHash几乎总是优于SimHash;本研究还提供了基于相似性和余弦相似性的算法比较方法。
Jul, 2014
本研究旨在通过成对比较的数据形式,使用 Copeland 计数算法实现对 n 个项目的排序,使其具有计算效率高,鲁棒性强,接近信息论极限等特点,并将结果扩展到汉明距离度量下的近似恢复问题和任意错误要求条件下的恢复问题。
Dec, 2015
该论文研究了哈希在机器学习中降维的基本用途,比较了各种哈希方案的性能,主要关注该领域中的两个应用:相似度估计与特征哈希。作者发现 Dahlgaard 等人的混合制表哈希是一种在许多应用中表现良好的伪随机哈希函数,其性能与真随机哈希函数相似,比 MurmurHash3 快 40%。
Nov, 2017
本文提出了Janossy pooling方法,可以将置换不变函数表示为输入序列的所有重新排序应用置换敏感函数的平均值,并且通过三种近似方法实现了可计算性可控,实验结果表明该方法在置换不变函数的构建上表现出了比当前最先进的方法更好的性能。
Nov, 2018
提出一种基于局部敏感过滤的随机选择算法LSF-Join,可以高效地在大数据集上以近似的方式查找所有匹配对,特别适用于高维数据集,解决了以往算法在大规模数据上无法适用的问题。
Mar, 2020
对Jaccard指数及其相关的一些扩展进行理论研究,包括一种新的巧合指数,该指数在比较两个实体集时可以考虑相对内含度的水平,适用于连续向量空间、多重集、密度和通用标量场的扩展,以及量化两个随机变量之间的联合相互依赖性的方法。
Oct, 2021
本研究将差分隐私与一种名为OPH的子线性接近邻近搜索算法相结合,提出了DP-OPH框架,并通过实验比较DP-OPH与DP-MH的性能,同时将其技术扩展到非二进制数据的分类任务中。
Jun, 2023
该研究介绍了一种基于欧式平滑度作为模式质量标准的无监督熵正则化迭代优化问题,能够高效地从高维数据中提取出稀疏的、经过排列的低维平滑模式,有效地实现了降维和特征提取,且在实际应用中能够识别同时最小化破产风险的平滑转换模式。
Jun, 2023