学习哈希在大数据索引中的应用 - 一份综述
本文探讨在搜索场景下使用b位最小哈希法(“minwise hashing”)需要解决的问题,并提出了并行化方案、基于简单哈希函数的b位最小哈希实现方法等,验证了该方法在数据大小和训练效果上的优势。
May, 2012
提出了基于列生成的学习数据相关哈希函数的建议,通过三元组来学习哈希函数,使用大边缘学习框架尽可能地保留数据的相对比较关系。实验表明,该方法学习到了紧凑的二进制代码,并且当在一些基准数据集上进行测试时,其检索性能与最先进的方法相比具有优势。
Mar, 2013
本文提出了一种新的稠密化策略,使 $(K,L)$ 参数的局部敏感哈希 (Locality Sensitive Hashing)的 minwise 哈希算法在查询处理成本上从 $O(dKL)$ 降至仅 $O(d + KL)$,针对非常稀疏的数据集,该改进的技术表现更好,并且在查询处理成本上与现有程序相同。
Jun, 2014
本文介绍了一种灵活而简单的框架,该框架可以容纳不同类型的损失函数和哈希函数,并可将现有方法放在上下文中,并简化了新问题特定哈希方法的开发。我们提出了一个具有Hash编码和Hash函数学习两个步骤的框架,其中前一步通常可以被表述为二次问题,而后一步则可以用训练标准的二元分类器来完成。实验表明,我们的方法在高维数据上比大多数最先进的方法表现显著优越。
Aug, 2014
本文系统综述了最近邻搜索问题中的哈希学习算法,将其按照不同的相似性保存方式进行分类,并分别阐述其性能评估和效益分析,最终指出量化算法在搜索精度、搜索时间、空间花费等方面都表现优异,并介绍了一些新兴话题。
Jun, 2016
本研究提出了一种互信息学习的哈希方法MIHash,可以在在线和批处理设置中使用,有效地减少哈希表重新计算并学习具有高质量的哈希函数,在2.5M图像数据集上取得了良好的表现。
Mar, 2017
本论文提出了一种基于多索引哈希的无监督哈希模型,使用全新的训练目标学习哈希码,提高多文档相似性搜索的效率,该模型相比于现有模型具有更高的效率,实验结果显示其效果优于现有语意哈希模型。
Mar, 2021
通过随机抽样和随机投影的组合,FastLSH算法将LSH计算的时间复杂度从O(n)降低到O(m)(其中m < n),并具有可证明的LSH属性,是一种有希望替代经典LSH方案的方法。
Sep, 2023