Lempel-Ziv Jaccard 距离,Ssdeep 和 Sdhash 的有效替代方案
本文研究了如何利用局部敏感哈希(LSH)来解决软件开发过程中自动故障分组的问题,并介绍了 DeepLSH,一种 Siamese DNN 架构和原始损失函数,以逼近 Jaccard 和 Cosine 度量的局部敏感性特性,并通过一系列实验验证了这一方法。
Oct, 2023
本文提出一种新的算法,该算法同时执行特征工程和非线性监督哈希函数学习,使用预训练和指数哈希损失函数,实现了有效的梯度计算和传播,并在数个广泛使用的图像基准测试中实现了全面的定量评估。实验结果表明,我们的算法明显优于所有现有的最先进的竞争对手,特别是在 MNIST 数据集上实现了近乎完美的 0.99 和 CIFAR10 数据集上的 0.74 的新记录。
Aug, 2016
本研究提出一种基于相似度分布的在线哈希方法 (SDOH),采用高斯归一化处理来解决极不平衡分布问题并通过最小化 KL 散度来对齐相似度分布,最后在三个广泛使用的基准测试中验证了该方法的优越性。
May, 2019
ElasticHash 是一种适用于自然图像的高品质、高效、大规模语义相似性搜索方法,通过基于深度哈希模型学习哈希码和使用 Elasticsearch 的两段式方法实现。在查询超过 120,000 个自然图像和 OpenImages 数据集中的约 6.9 百万个数据库图像的检索性能评估中,显示了 ElasticHash 具有高质量的检索结果和低查询延迟。
May, 2023
本文提出了一种新的深度哈希方法,通过将成对相似性重新定义为实例相似性,基于实例相似性,构造了加权交叉熵和最小均方误差损失,用于同时学习特征和哈希编码,实验表明,这种方法优于竞争方法,在多标签图像检索中实现了最先进的性能。
Mar, 2018
该论文提出一种基于自学习的哈希方法,通过无监督学习为给定语料库中的所有文档找到 $l$ 位二进制码,再通过有监督学习训练 $l$ 个分类器,以预测之前未见过的查询文档的 $l$ 位码。在三个真实的文本数据集上的实验表明,该方法比现有技术显著地优越。
Apr, 2010
本研究提出了一种监督学习框架,直接从原始图像中生成紧凑且可扩展的哈希编码,通过使用三元组样本最大化匹配对与不匹配对在汉明空间中的边界,并同时优化图像特征和哈希函数,从而在实际应用中更具有灵活性和更高的性能。
Aug, 2015
本文提出了一种名为 S2SD 的新方法,将基于相似性的自我蒸馏应用于 Deep Metric Learning 模型中,通过辅助高维度嵌入和特征空间的知识蒸馏,在保持测试时间成本不变的情况下,实现推理性能的显著提升。实验结果表明,该方法能够有效地提高 Recall@1 指标,同时也创造了新的最优性能记录。
Sep, 2020
本文提出了一种 Semantic-Aware DIscrete Hashing(SADIH)框架,旨在将转换后的语义信息直接嵌入到不对称相似度逼近和判别式哈希函数学习中,以克服监督哈希中全面保留对成对相似度的学习过程过于昂贵且无法扩展以处理大数据的问题。在多个大规模数据集上的实验结果表明,我们的 SADIH 可以明显优于最先进的基线,同时具有更低的计算成本。
Apr, 2019