- 重访用于轨迹相似度学习的 CNNs
对于轨迹数据的相似性搜索,本文提出使用 ConvTraj 模型,结合 1D 和 2D 卷积分别捕捉序列和地理分布特征,实现了高性能的轨迹相似性搜索,并在实验中展示了其在大规模数据集上的效果。
- 空间优化紧凑型深度度量学习模型在相似性搜索中的应用
本研究通过使用单层的 involution 特征提取器与紧凑的卷积模型相结合,显著增强了相似性搜索的性能;此外,通过使用 GELU 激活函数而非 ReLU,我们改善了预测准确性。在实际应用中,involution 模型的重量参数较少且性能更 - LeanVec:通过使向量适应进行更快的搜索
LeanVec 是一个结合了线性降维和向量量化的框架,用于加速高维度向量的相似性搜索,并在维持准确度的同时提高性能。它提供了针对分布内和分布外查询的两个变体,能够产生与最新的深度学习替代方案相当的准确度,并在搜索吞吐量上提高了 3.7 倍, - 句级多模态和语言无关的表示
我们引入了 SONAR,一个新的多语言和多模态的固定大小句子嵌入空间,在 xsim 和 xsim++ 多语言相似性搜索任务中,我们的单一文本编码器涵盖 200 种语言,表现明显优于现有的句子嵌入如 LASER3 和 LabSE。我们还提供了 - 通过序列相似性和上下文进行改进的矢量嵌入:用于 cDNA 图书馆的压缩、相似性搜索、聚类、组织和操作
通过基因的有组织数值表示,可以更高效地对序列进行聚类,并通过编码条形码和 cDNA 序列的序列嵌入方法和欧氏空间向量接近算法来改善相似性搜索的时间复杂性。
- 差分隐私一次置换哈希和按位一致加权采样
本研究将差分隐私与一种名为 OPH 的子线性接近邻近搜索算法相结合,提出了 DP-OPH 框架,并通过实验比较 DP-OPH 与 DP-MH 的性能,同时将其技术扩展到非二进制数据的分类任务中。
- 主动图像索引
本文通过使用主动索引技术优化图像复制检测的鲁棒性,提高了神经网络在大型数据库中的图像检索质量和效率
- ICML生物启发哈希用于无监督相似性搜索
基于果蝇嗅觉电路启发的两种哈希算法:FlyHash 和 BioHash,分别产生稀疏的高维哈希码,在数据驱动的过程中被证明是高效的相似性搜索方法,提出了结合生物学机制的 LSH 假设,是计算机科学领域的重要研究成果。
- KDD足球队向量
本文提出了 STEVE - 足球队向量的一种方法,该方法为学习足球队的实值向量,使得相似的球队在所得到的向量空间中彼此靠近。此方法仅依赖于有关球队过去比赛的免费信息,向量可用于各种机器学习任务中。在团队市场价值估计任务中,STEVE 的表现 - SIGIR无监督神经生成语义哈希
提出了一种新的无监督生成语义哈希方法 (Ranking based Semantic Hashing,RBSH),它由一个变分部分和一个基于排名的部分组成,能够通过哈希码生成实现文档排序,实验结果显示,相较于传统方法和最新的语义哈希方法,这 - DistillHash:无监督深度哈希,通过蒸馏数据对
提出了一种新颖的深度无监督哈希模型 DistillHash,在信任相似信号的数据对中进行蒸馏,并采用贝叶斯学习框架从蒸馏的数据集中学习哈希函数,实验结果显示 DistillHash 达到了最先进的搜索性能。
- node2bits:紧凑型时空属性感知节点表示用于用户拼接
本研究提出了 node2bits,一个用于在异构网络中对多维节点上下文特征进行编码的框架,并采用 SimHash 获取紧凑的、二进制表示,避免了相似度搜索中的二次复杂度。在大规模实际网络上进行的广泛实验表明,node2bits 在用户拼接上 - 基于图形和紧凑回归码的快速索引
本文提出了一种基于图遍历和压缩表征的方法,该方法编码可索引向量使用量化和利用图结构改进相似度估计。该方法在保证较小比较集的高精度及显著内存压缩的同时,在 64-128 字节每向量的操作点上,优于现有技术在二十亿规模公共基准测试中的表现。
- 基于 GPU 的十亿级相似度搜索
本文提出了一种优化 k - 选择算法解决高维数据相似度搜索问题的方法,实现了快速且准确的 k - 最近邻图的构建,并在多个方面超越目前的最新 GPU 技术。
- 大规模异构信息网络中基于元路径导向嵌入的相似度搜索
本文提出了一个基于嵌入的框架 (ESim),以探索嵌入在网络结构中的相似度,并接受用户定义的元路径作为指导来学习嵌入向量。在大规模异构信息网络上进行的实验证明了 ESim 的有效性和可扩展性。
- 使用局部敏感过滤的时空权衡相似性搜索框架
提出一种基于局部敏感过滤的相似性搜索框架,扩展了 Indyk-Motwani (STOC 1998) 的局部敏感哈希 (LSH) 框架以支持时空权衡。
- 非度量空间库手册
介绍了用于快速相似度 (k-NN) 搜索的库,侧重于非度量空间的通用和近似搜索方法,并提供了 Python 绑定的详细信息,NMSLIB 是第一个具有原则性支持非度量空间搜索的库。
- 无误差局部敏感哈希: CoveringLSH
本文提出了一种新的局部敏感哈希函数的结构,覆盖了海明空间中给定半径内的每对向量,其效率接近于最佳数据独立 LSH,适用于在海明空间中进行相似性搜索。
- 用钻石采样实现最大全对点点积(MAD)近似搜索
本文提出一种基于采样的方法来解决两个向量集合内找到前 $t$ 个点积的问题,即在众多数据应用中出现的基本数学问题,实验结果表明钻石采样比直接计算快得多,并且需要的样本量比任何竞争方法都少。
- 一项相似性搜索的哈希调查
本文介绍了哈希方法作为解决最近邻搜索问题的一种主要方法的概述,其中对基于数据分布设计哈希函数和基于数据学习设计哈希函数的两种主要哈希算法进行了阐述和综述。