HBST: 一种用汉明距离编码的二叉搜索树用于视觉地点识别
使用紧凑的二进制编码表示图像数据和特征描述符的研究表明,多个哈希表可用于在 Hamming 空间中进行精确的 k 近邻搜索,并且在 64、128 或 256 位的十亿级数据集上,其运行时间呈子线性表现,从而实现了极大的速度提升。
Jul, 2013
本文介绍了一种灵活而简单的框架,该框架可以容纳不同类型的损失函数和哈希函数,并可将现有方法放在上下文中,并简化了新问题特定哈希方法的开发。我们提出了一个具有 Hash 编码和 Hash 函数学习两个步骤的框架,其中前一步通常可以被表述为二次问题,而后一步则可以用训练标准的二元分类器来完成。实验表明,我们的方法在高维数据上比大多数最先进的方法表现显著优越。
Aug, 2014
提出了一种基于二进制嵌入的检索引擎,利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合,并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验,证明了该方法的效率和有效性,在几乎不损失系统准确性的情况下,显著节省了 30%~50% 的索引成本。
Feb, 2023
本文提出了一种名为 HST 的半监督视频对象分割框架,使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征,并使用内存读取操作产生层次特征以精确重构对象蒙版,该框架在处理复杂场景下具有有效性和鲁棒性,尤其是 HST-B 在多个流行基准测试中优于现有技术。
Jul, 2023
本文针对图像检索任务,提出一种从图像到二进制码的压缩映射方法,使用三元组损失函数进行训练,并通过多标签分类问题和深度卷积神经网络实现高维二进制码的学习,从而实现高效的图像检索。
Mar, 2016
本文提出了一种向二进制特征描述符中嵌入连续和选择器线索的方法,以支持视觉场地识别,通过使用两种不同类型的线索在五个基准数据集上和几种现有二进制描述符类型的结合下进行全面的定量和比较评估。
Sep, 2018
该论文提出一种基于自学习的哈希方法,通过无监督学习为给定语料库中的所有文档找到 $l$ 位二进制码,再通过有监督学习训练 $l$ 个分类器,以预测之前未见过的查询文档的 $l$ 位码。在三个真实的文本数据集上的实验表明,该方法比现有技术显著地优越。
Apr, 2010
本文提出了一种基于叶子节点为每个视频帧的多假设片段树(MHST)的方法,从而解决在极少的帧注释下,实现单次时序句子本地化(one-shot TSL)的问题,并提供了自监督损失函数,与现有方法相比取得了具有竞争力的性能。
Jan, 2023
本文提出了一种新的基于图像的城市定位方法,使用图像与 2D 地图之间的语义匹配来表示语义特征,其中的二进制描述符能够更好地适应可变成像条件,而 CNN 分类器则用来检测图像的特征并与地图数据库中的信息进行匹配,这种方法相对于传统的图像数据库匹配更具有可扩展性和人机交互性.
Mar, 2018
提出了一种基于文本提示的高分辨率视频查询的视觉 - 语言神经框架,名为 Bi-directional Spatio-Temporal Learning(BiST)。结果表明,BiST 在视频段落检索(AVSD)基准测试中取得了有竞争力的性能并产生了合理的响应。另外,在 TGIF-QA 基准测试中,BiST 模型比先前的方法表现更好。
Oct, 2020