HBST: 一种用汉明距离编码的二叉搜索树用于视觉地点识别

Feb, 2018

HBST: 一种用汉明距离编码的二叉搜索树用于视觉地点识别

HBST: A Hamming Distance embedding Binary Search Tree for Visual Place Recognition

Dominik Schlegel, Giorgio Grisetti

TL;DR本文介绍了一种基于 HBST 方法的二进制描述符匹配和图像检索技术，在日志时间内支持描述符搜索和插入，HBST 是一种紧凑的开源 C++ 头文件库，能够有效地应用于现代 SLAM 系统中的可靠和高效的视觉地点识别。

Abstract

Reliable and efficient visual place recognition is a major building block of modern slam systems. Leveraging on our prior work, in this paper we present a Hamming Distance embedding →

visual place recognition slam systems descriptor matching binary search tree image retrieval

发现论文，激发创造

基于多索引哈希的汉明空间快速精确搜索

使用紧凑的二进制编码表示图像数据和特征描述符的研究表明，多个哈希表可用于在 Hamming 空间中进行精确的 k 近邻搜索，并且在 64、128 或 256 位的十亿级数据集上，其运行时间呈子线性表现，从而实现了极大的速度提升。

Jul, 2013

使用图割和增强决策树的监督哈希

本文介绍了一种灵活而简单的框架，该框架可以容纳不同类型的损失函数和哈希函数，并可将现有方法放在上下文中，并简化了新问题特定哈希方法的开发。我们提出了一个具有 Hash 编码和 Hash 函数学习两个步骤的框架，其中前一步通常可以被表述为二次问题，而后一步则可以用训练标准的二元分类器来完成。实验表明，我们的方法在高维数据上比大多数最先进的方法表现显著优越。

Aug, 2014

腾讯的基于二进制编码的检索

提出了一种基于二进制嵌入的检索引擎，利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合，并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验，证明了该方法的效率和有效性，在几乎不损失系统准确性的情况下，显著节省了 30%~50% 的索引成本。

Feb, 2023

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

三元组深度二进制嵌入网络的快速训练

本文针对图像检索任务，提出一种从图像到二进制码的压缩映射方法，使用三元组损失函数进行训练，并通过多标签分类问题和深度卷积神经网络实现高维二进制码的学习，从而实现高效的图像检索。

Mar, 2016

为视觉地点识别添加二进制特征描述符提示

本文提出了一种向二进制特征描述符中嵌入连续和选择器线索的方法，以支持视觉场地识别，通过使用两种不同类型的线索在五个基准数据集上和几种现有二进制描述符类型的结合下进行全面的定量和比较评估。

Sep, 2018

自学习哈希用于快速相似性搜索

该论文提出一种基于自学习的哈希方法，通过无监督学习为给定语料库中的所有文档找到 $l$ 位二进制码，再通过有监督学习训练 $l$ 个分类器，以预测之前未见过的查询文档的 $l$ 位码。在三个真实的文本数据集上的实验表明，该方法比现有技术显著地优越。

Apr, 2010

一次性时间句子定位的假设树构建

本文提出了一种基于叶子节点为每个视频帧的多假设片段树（MHST）的方法，从而解决在极少的帧注释下，实现单次时序句子本地化（one-shot TSL）的问题，并提供了自监督损失函数，与现有方法相比取得了具有竞争力的性能。

Jan, 2023

基于二进制语义描述符的 2D 地图图像定位自动化

本文提出了一种新的基于图像的城市定位方法，使用图像与 2D 地图之间的语义匹配来表示语义特征，其中的二进制描述符能够更好地适应可变成像条件，而 CNN 分类器则用来检测图像的特征并与地图数据库中的信息进行匹配，这种方法相对于传统的图像数据库匹配更具有可扩展性和人机交互性.

Mar, 2018

BiST: 视频对话的双向时空推理

提出了一种基于文本提示的高分辨率视频查询的视觉 - 语言神经框架，名为 Bi-directional Spatio-Temporal Learning（BiST）。结果表明，BiST 在视频段落检索（AVSD）基准测试中取得了有竞争力的性能并产生了合理的响应。另外，在 TGIF-QA 基准测试中，BiST 模型比先前的方法表现更好。

Oct, 2020