一种基于上下文感知的端到端自然语言对象检索方法

Mar, 2017

一种基于上下文感知的端到端自然语言对象检索方法

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning

Fan Wu, Zhongwen Xu, Yi Yang

TL;DR本文介绍一种通过深度强化学习的方式，结合空间和时间情境及自然语言先验知识，移动和重塑边界框以定位描述中的物体，从而实现自然语言目标检索任务。作者实验表明，该方法在多个数据集上均优于现有算法，特别在 ReferItGame 数据集上，该方法相比 GroundeR 和 SCRC 的准确率分别提高了 7.67％和 18.25％。

Abstract

We propose an end-to-end approach to the natural language object retrieval task, which localizes an object within an image according to a natural language description, i.e., referring expression. Previous works divide this problem into two independent stages: first, compute region prop

natural language object retrieval deep reinforcement learning spatial and temporal context bounding box referitgame dataset

发现论文，激发创造

自然语言对象检索

本文提出了一种基于 SCRC 模型来实现自然语言对象检索的方法，利用空间配置和全局场景级上下文信息对网络进行评分，通过循环网络处理查询文本、本地图像描述符、空间配置以及全局上下文特征来输出概率，实现了从图像标题到任务的视觉语言知识的转移，实验结果表明我们的模型有效地利用了局部和全局信息，在不同数据集和场景中显著优于先前的基准方法，并可以利用大规模的视觉和语言数据集进行知识转移。

Nov, 2015

带上下文的自然语言查询的机器人目标检索

我们开发了一种基于机器学习的模型，使机器人能够根据物体的用途检索物体，而不是仅针对特定的物体类型或视觉属性，从而实现了高级概念的预测和自然语言命令的推广。

Jun, 2020

基于自然语言的目标描述和检索

本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法，并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明，使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题，并在推理时间非常快的同时，提供了对对象的详细理解。

Mar, 2018

利用深度强化学习进行主动物体定位

提出了一种用于在场景中定位目标物体的主动检测模型，该模型是类特定的，并允许代理集中注意力于识别目标物体的候选区域，通过深度强化学习训练定位代理，并在 Pascal VOC 2007 数据集上评估，结果表明，使用该模型指导的代理能够在分析图像中仅仅探测 11 到 25 个区域后定位一个物体实例，并且在不使用物体提议进行物体定位的系统中取得了最佳的检测结果。

Nov, 2015

ScanRefer: 使用自然语言在 RGB-D 扫描中进行 3D 物体定位

本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer，使用 3D 对象提取和编码的句子嵌入来学习融合描述符，将语言表达与几何特征进行相关性建模，可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集，包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。

Dec, 2019

基于注意力机制的自然语言人物检索

本文提出了一个基于注意力机制的自然语言人物检索系统，并成功应用于监控视频检索领域中，该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征，并利用 BLSTM 模型进行文本特征提取，将其融合后进行得分，可以更加精确地检索到所需的目标。

May, 2017

RREx-BoT：用技巧袋处理远程代指表达式

该研究揭示家庭机器人在执行长期任务时通过使用三维编码和视觉语言模型可实现客观目标定位；通过实证研究，该研究表明该方法优于以往的同类工作并适用于实际机器人平台。

Jan, 2023

视觉指向表达识别：系统实际学习了什么？

本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式，并发现这些系统可能忽略语言结构，依赖于数据选择和注释过程中引入的浅层相关性。

May, 2018

使用自然语言描述的实时视觉目标跟踪

该研究提出一种利用自然语言描述的深度追踪器，通过使用 LSTM 跟踪器预测目标的更新，可以以每秒超过 30 帧的速度处理具有模糊语言注释的目标，展示出色的性能。

Jul, 2019

面向语义的动态本地化和细化，用于指代图像分割

本论文提出一种基于逐步学习区分性多模态特征的方法，通过不断更新查询作为目标对象的表示，强化与之相关的多模态特征，逐渐从定位中心转为分割中心，实现逐步修复缺失对象部分和 / 或去除多余部分，并在 RefCOCO、RefCOCO+ 和 G-Ref 数据集上的实验结果表明其优于现有方法。

Mar, 2023