先斩后奏：一阶段视觉定位中学习地标特征

Apr, 2021

先斩后奏：一阶段视觉定位中学习地标特征

Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding

Binbin Huang, Dongze Lian, Weixin Luo, Shenghua Gao

TL;DR提出了一种 LBYL（“先看再跳”）网络，用于端到端可训练的单阶段视觉定位，其核心是地标特征卷积模块，以指导语言描述的方式传递视觉特征，并结合与目标的上下文信息进行定位，实验结果表明，LBYL-Net 在 ReferitGame 上优于所有现有的两阶段和一阶段方法，在 RefCOCO 和 RefCOCO + 上的表现也与现有的一阶段方法相当甚至更好。

Abstract

An LBYL (`Look Before You Leap') Network is proposed for end-to-end trainable one-stage visual grounding. The idea behind lbyl-net is intuitive and straightforward: we follow a language's description to localize

lbyl-net visual grounding landmark feature convolution contextual information referitgame

发现论文，激发创造

通过分布对齐特征相似度实现自监督地标估计

本文介绍了一种 LEAD 方法，用于从未注释的类别特定图像集合中发现地标。通过采用两阶段训练方法，该方法增强了自监督学习中密集等变表示的学习，并在极度有限的注释数下提高了地标检测的性能，同时提高了跨尺度变化的泛化能力。

Apr, 2022

一种快速精确的一阶段视觉定位方法

提出一种基于单阶段模型的视觉 grounding 方法，将文本查询的嵌入与 YOLOv3 物体检测器融合，加入空间特征以处理查询中的空间提及，并实现端到端联合优化，实验表明此方法对于短语定位和指代表达理解具有很大的潜力，同时建议在一些常见的区域提议方法上进行细致研究并将视觉 grounding 作为从传统双阶段方法向单阶段框架的范例转移

Aug, 2019

基于地点实体的自适应预训练技术用于视觉与语言导航

我们提出了一种新颖的基于实体 - 地标适应的预训练模型 (GELA)，用于实现细粒度的视听导航中不同模态信号的对齐。采用三个适应性预训练目标：实体短语预测，地标边界框预测和实体 - 地标语义一致性，该模型在两个任务中实现了最先进的结果，证明了其有效性和普适性。

Aug, 2023

LineMarkNet：代客泊车的线路标记检测

通过设计轻量级模组，提出了一种用于自动驾驶中的准确高效线路地标检测系统，该系统能够有效检测停车服务中的线路地标，并应用于 Qualcomm 820A 平台的实时检测。

Sep, 2023

用于地点识别的区分性视觉地标定位

本文提出了一种利用卷积神经网络提取特征并用地标定位网络确定区分性地标的方法，用于视觉地点识别问题，该方法在各种外观和视角变化方面均具有优异的性能。

Apr, 2019

跨 IOU 损失的位置敏感视觉识别

LSNet 是一个深度神经网络，能够根据感兴趣目标的锚点和标志点确定目标的形状，其采用新型的损失函数进行优化，可在提高准确率的同时具有更好的融合信息的性能。实验证明，LSNet 能够在定位敏感型的视觉识别任务中创造最新的准确率记录，成为新一代无锚点目标检测和实例分割的领跑者，并能够有效检测多尺度的人体姿态。

Apr, 2021

两阶段自然语言视频定位的边界提案网络

本文提出了一种新颖的 Boundary Proposal Network (BPNet)，该框架是一个通用的两阶段结构，利用多模态交互将候选视频片段与语言查询匹配，从而实现对自然语言视频定位的优化。在 Charades-STA，TACoS 和 ActivityNet-Captions 等三个具有挑战性的 NLVL 基准测试数据集上的结果表明，BPNet 优于最先进的方法。

Mar, 2021

通过大型模型进行视觉语言导航中的可纠正的地标发现

Vision-Language Navigation (VLN) requires the agent to align landmarks based on instruction and visual observations. This paper proposes CONSOLE, a new paradigm that treats VLN as an open-world landmark discovery problem, utilizing large models ChatGPT and CLIP for accurate alignment and observation enhancement to achieve state-of-the-art results on multiple VLN benchmarks.

May, 2024

从地标生成基础导航说明：少即是多

本篇论文主要研究利用 360 度图像生成室内路线的导航指令，通过提取关键地标并用多语言图像 - 文本编码器进行泛化训练，在英语、印地语和特鲁古语语言环境下，MARKY-MT5 系统可以提供与人类导航指令 75% 相近的娴熟指导，显示出较高的性能和应用价值。

Nov, 2021

自举型潜变量：自监督学习的一种新方法

本文提出了一种新的自监督图像表示学习方法 Bootstrap Your Own Latent（BYOL），通过在线网络和目标网络相互交互和学习，从图像的增强视图中训练在线网络以预测在不同增强视图下相同图像的目标网络表示，并同时使用在线网络的缓慢移动平均更新目标网络，通过使用 ResNet-50 架构进行线性评估，BYOL 在 ImageNet 具有 74.3％的 top-1 分类准确率，在转移和半监督基准测试中 BYOL 表现与当前技术水平相当或更好。

Jun, 2020