- Pfeed:使用预先计算的嵌入相似性生成几乎实时个性化供稿
在个性化推荐系统中,使用嵌入来编码客户行为和物品,并通过近似最近邻搜索在嵌入空间中执行检索。然而,这种方法可能会面临两个挑战:用户嵌入可能限制了所捕捉的兴趣的多样性,而且需要保持它们的实时更新需要代价高昂的基础设施。在本文中,我们提出了一种 - 基于最近邻搜索的地球移动距离高效近似计算
使用最近邻搜索来逼近地球移动距离(EMD),以实现高准确性、低时间复杂度和高内存效率;通过 GPU 的向量化进一步加快速度,比现有的近似 EMD 方法在图像分类和检索任务中达到 44 倍至 135 倍的速度优势,同时实现了更好的准确性、加速 - 从距离集中和流形效应解释维数灾难
当维度增加时,数据的特征和可解释性变得更加抽象和复杂。在高维空间中,低维空间中的常见模式和关系可能不再成立,这导致回归、分类或聚类模型或算法的性能下降,这被称为维数灾难。本文总结了操作高维数据时面临的五个挑战,并通过理论和实证分析探讨了维数 - CRD: 实用异常检测的协作表征距离
使用基于协作表示模型的图像块距离计算,在边缘设备上仅需进行简单的矩阵乘法运算,极大地提高了计算效率并降低了内存开销。
- PECANN:基于图的近似最近邻搜索的并行高效聚类
该研究论文通过抽象密度峰聚类算法中的关键步骤,如使用基于图的近似最近邻搜索(ANNS)方法来寻找满足预测函数的最近邻,提出了一种统一的框架 PECANN。通过在合成和真实数据集上评估,该方法在大规模高维度数据集上实现了高速的聚类效果,并在性 - 流行近似最近邻搜索实现的最坏情况性能:保证和限制
图形化相似最近邻搜索算法的最坏情况性能研究,以 HNSW、NSG 和 DiskANN 为例,发现其实际查询时间与实例大小成线性关系,并证明其具有常数近似比和多对数查询时间的边界维数据集。
- 基于摘要描述的文本检索
本文提出了新的检索模型,结合了指令模型和基于检索模型,使用大型语言模型的正负对进行训练,以改进当前文本嵌入技术性能。
- 随机投影森林中点分布对 k-nn 搜索的影响
本文探讨了两种影响随机投影森林中 k - 最近邻搜索 (K-NN 搜索) 性能的因素(数据点的分散性和 rpForest 中树的数量),研究表明随机投影森林的数量较大时,数据点的分散性对 K-NN 搜索影响非常有限。因此,在选择随机方向时, - 基于预训练图像特征的医学图像检索通过最近邻搜索实现
本文提出了一种名为 DenseLinkSearch 的高效率医学影像最近邻检索算法,并探讨了在医学影像检索任务中基于内容的特征表示技术,在 CLEF 2011 医学影像检索任务中基于转换器的特征表示技术的表现超过了现有的预训练转换器方法。
- 是否已经到达目的地?一种替换基于词项检索的密集检索系统的决策框架
本论文提出具有一套标准的框架来比较两种检索系统,该框架以除了简单效果措施之外的标准来衡量,旨在评估一个系统取代另一个系统的准备情况。在 Web 排名方案中,最先进的 DR 模型不仅在平均性能方面表现出色,而且通过广泛的保护装置测试,在不同的 - Falconn++:一种局部敏感过滤方法用于近似最近邻搜索
Falconn++ 是一种基于哈希的近似最近邻搜索算法,它利用本地敏感过滤技术过滤掉潜在的远点,实现了比其他哈希方案更高质量的候选结果,与在许多真实数据集上表现优异的 HNSW 相比具有更高的召回速度折衷。
- ICLR可训练嵌入索引中的旋转矩阵学习的 Givens 坐标下降方法
本文提出了一种基于几何直觉的块 Givens 坐标下降算法,用于学习旋转矩阵,具有可证明的收敛性和更高的并行性,可显著优化最近邻搜索中的产品量化方法,在端到端训练方案中取得了更好的性能。
- MM包括动态时间规整的弹性距离的早期终止和修剪
本研究提出了一种新的通用策略,将剪枝和早期中止与最近邻搜索相结合,支持多种弹性距离测量方法,并使用新的 C ++ 库进行时间序列分类。
- 阿里巴巴基于二进制分布式图的大规模视觉搜索
本研究提出了一种名为二进制分布式图形算法的方法,该方法使用二进制编码与图形结构相结合以加速在线和离线程序,并通过回忆更多二进制候选项来实现与实值场景中的性能相当,废除了单个机器内存和磁盘存储的限制,对超过 30 亿张图像的阿里巴巴商品数据集 - KDD深度哈希方法综述
本文旨在详细研究包括深度监督哈希与深度无监督哈希在内的深度哈希算法,并探讨半监督深哈希、域自适应深哈希和多模态深哈希等相关重要主题,同时介绍公共数据集和深哈希算法性能的评估方法,并提出潜在的研究方向。
- 深度多视图增强哈希用于图像检索
本文中提出了一种结合多视角和深度学习的、能够显著提高哈希检索性能的新型多视角哈希模型,该模型在 CIFAR-10、NUS-WIDE 和 MS-COCO 数据集上系统地评估,结果表明本方法明显优于现有的单视角和多视角哈希方法。
- WSDMAutoBlock:一种无需干预的实体匹配阻塞框架
本文提出了一种基于相似度保留表示学习和最近邻搜索的新型无需人工干预的数据实体匹配屏蔽框架 AutoBlock,其优点包括自动化、可扩展性和高效性,在多个大规模、现实世界数据集上表现出色,尤其是在数据集不清洁或不结构化时。
- ICLR记忆化泛化:最近邻语言模型
引入了 $k$NN-LMs,该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中,我们实现了一个新的最先进的困惑度为 15.79,这是一个 2.9 点的提高而无需额外的训练 - ICML可扩展的最近邻搜索用于最优输运
这篇论文介绍一种快速、准确的 Wasserstein-1 距离近邻搜索算法 Flowtree,通过实验表明它比之前的最先进算法快 7.4 倍。
- 为实体检索学习密集表示
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集