本文探讨在搜索场景下使用 b 位最小哈希法(“minwise hashing”)需要解决的问题,并提出了并行化方案、基于简单哈希函数的 b 位最小哈希实现方法等,验证了该方法在数据大小和训练效果上的优势。
May, 2012
本文建立了 b 位最小哈希的理论框架,通过仅存储每个(最小化)哈希值的最低 b 位,可以在计算效率和存储空间方面获得相当大的优势,提供了任何 b 的相似度的无偏估计,即使在最不利的情况下,使用 b = 1 也可以将存储空间至少减少 21.3(或 10.7)倍,如果对相似度 > 0.5 感兴趣。
Oct, 2009
研究探讨了将哈希值划分为 m 个块的 Pb-Hash 的方法,并表明使用 Pb-Hash 在一定范围内不会影响准确性,在机器学习任务中验证了 Pb-Hash 的有效性。
Jun, 2023
本文提出了一种基于双线性函数的超平面哈希技术,可以解决使用随机投影时现有随机方法所需的较长哈希编码导致降低搜索速度和内存占用等问题,并通过数据学习构建了一种短而有辨别力的哈希编码。实验表明,该方法在大规模主动学习任务中具有优越性。
Jun, 2012
本文研究哈希作为一种优秀的降维和实用的非参数估计策略,并提供特征哈希的指数尾部界限,证明随机子空间之间的交互在高概率下是可以忽略的。同时,展示了在多任务学习这一新应用场景中采用此方法的可行性。
Feb, 2009
本文利用增强决策树来实现哈希中的非线性,提出了基于次模形式的哈希二进制码推断问题和用于解决大规模哈希推断的高效 GraphCut 块搜索方法。实验证明,该方法在检索准确性和训练时间方面显著优于大多数最先进的方法,尤其是对于高维数据,该方法的训练时间比许多方法快数个数量级。
Apr, 2014
该研究提出了一种基于互信息优化的新型监督式哈希方法,通过在深度神经网络中优化互信息来学习二进制向量嵌入,从而在大规模高维对象数据库检索中获得高质量的二进制嵌入。
Mar, 2018
本论文提出了一种基于最小描述长度原则的生成式二元哈希学习方法,通过随机分布梯度基于优化哈希函数及关联生成模型的参数,以实现对海量数据库的快速搜索与检索。实验结果表明,该方法在多种大规模数据集上实现了比现有最先进方法更好的检索结果。
Jan, 2017
本文提出了一种基于流形学习的哈希方法,包括解决样本外数据问题的有效归纳解决方案和用非参数流形学习作为哈希方法基础的过程,以提高现有算法的规模,并展示了基于 t-SNE 的哈希方法在大规模基准数据集上的优越性和通过最小化量化误差以及加入标签信息等方法进一步提高语义检索性能的应用。
Dec, 2014
本文提出一种基于深度学习的监督离散哈希算法,利用分类信息和成对标签信息在单流框架中学习哈希码,并通过交替最小化方法进行优化,实验结果表明该方法在基准数据集上优于当前最先进的方法。
May, 2017