基于语义感知的注意力神经嵌入在基于图像的视觉定位中的应用

Dec, 2018

基于语义感知的注意力神经嵌入在基于图像的视觉定位中的应用

Semantically-Aware Attentive Neural Embeddings for Image-based Visual Localization

Zachary Seymour, Karan Sikka, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar

TL;DR提出了一种新的，综合了外观和语义信息的 2D VL 定位方法，该方法使用多模态线索生成稳健的嵌入向量，其中利用了场景的语义布局的不变性，并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程，在三个具有挑战性的本地化数据集上测试，平均绝对提高了 19％，并且通过对模型各个组件进行广泛研究，证明了语义信息和注意模块的贡献。

Abstract

We present an approach that combines appearance and semantic information for 2D image-based localization (2d-vl) across large perceptual c

2d-vl semantic information attention module localization embedding

发现论文，激发创造

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Apr, 2018

语义嵌入式深度神经网络：提升多标签图像分类性能的通用方法

本文介绍了一种使用语义嵌入深度神经网络，采用基于空间感知语义特征和通道注意力模型的方法来提高多标签预测模型性能的方法。实验证明，与基线方法相比，该方法平均相对改进 15.27％，在 Instagram 时尚服装图像上进行了多标签时尚属性分类的核心实验和消融研究，并将模型性能与我们的方法进行比较，发现我们的方法性能更优秀。

May, 2023

高分辨率稀疏注意力下的语义布局操作

该研究提出了一种高分辨率稀疏注意力模块和一个生成器架构，可以在语义标签映射的基础上，有效地实现将输入图像的视觉细节转移至新布局。实验证明，该方法在图像修补和布局操作方面的性能得到了大幅提高。

Dec, 2020

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

GeoVLN：使用槽注意力学习几何增强的视觉表征，用于视觉语言导航

GeoVLN 提出了一种几何加强的视觉表示学习方法，基于 Slot Attention 技术和 V&L BERT 模型结合自然语言和多种视觉输入信息实现了强大的视觉和语言导航功能，取得了很好的实验效果。

May, 2023

语义视觉定位

该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题，该方法使用生成模型进行描述符学习，并在语义场景补全作为辅助任务进行训练，以使得生成的三维描述符具有鲁棒性，并能够实现在极端视角，光照和几何变化下的可靠定位。

Dec, 2017

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

DA4AD：面向自主驾驶的端到端深度注意力视觉定位

本文提出了一种基于深度注意力感知特征的视觉定位框架，可在自动驾驶中实现厘米级别的定位精度。通过使用新型端到端的深度神经网络，利用深度注意机制寻找显著、稳定性强的特征，以建立强鲁棒性的匹配，并成功估计高精度的相机姿态。经过大量的实验验证，证明了我们的方法在各种挑战性场景下，都能够达到非常具有竞争力的定位精度，这为未来自动驾驶的低成本定位解决方案提供了新的可能性。

Mar, 2020

多尺度注意力学习视觉地点识别语义

本研究旨在通过多尺度注意力模块，实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程，以提高视觉地点识别的准确性，同时提出第一个适用于地点识别和分割任务的合成世界数据集，实验证明方法在不同情景下具有良好性能。

Jan, 2022

DASGIL: 面向语义和几何感知的基于图像的领域自适应定位

本文提出一种基于多任务架构的视觉定位方法，通过将几何和语义信息融合到多尺度的嵌入表示中，使用有效的多尺度特征鉴别器进行对抗性训练，从虚拟数据集到现实世界数据集的领域适应，以实现图像检索定位及大规模地点识别。该方法在 Extended CMU-Seasons 数据集和 Oxford RobotCar 数据集上进行验证，结果表明本方法在具有挑战性的环境下的检索定位和大规模地点识别的表现优于现有方法。

Oct, 2020