请求式视觉识别

Jul, 2022

Visual Recognition by Request

Chufeng Tang, Lingxi Xie, Xiaopeng Zhang, Xiaolin Hu, Qi Tian

TL;DR本文提出了一种新的视觉识别范式，名为 ViRReq，通过将视觉识别分解成命名为请求的原子任务，并利用知识库和语言驱动识别，在功不完备的数据集上学习复杂的整体 - 部分层次结构，并且能够轻松地插入新的概念。

Abstract

Humans have the ability of recognizing visual semantics in an unlimited granularity, but existing visual recognition algorithms cannot achieve this goal. In this paper, we establish a new paradigm named visual recogniti

visual recognition atomic tasks whole-part hierarchies knowledge base language-driven recognition

发现论文，激发创造

自我中心的分层视觉语义

本文提出了一种算法，通过递归识别物体的视觉属于和视觉特征来实现物体识别，从而实现了基于词义层次结构的物体识别，进一步推动了人机交互的研究。

May, 2023

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

VISIR：图像视觉和语义标签的精细化

本篇论文介绍了新型的图像检索方法：内容检索和基于标记的检索，它们都存在一些限制。作者提出了一种方法，可以对深度学习产生的标记进行语义细化和扩展，解决了标记的嘈杂问题和限制，使用整数线性规划来解决该问题。实验表明，该方法可以改善现有的可视化标记工具的质量。

Sep, 2019

视觉知识追踪

本文提出了一项新颖的任务，即追踪人类学习者在进行挑战性的视觉分类任务时不断演变的分类行为，提出了一种新的视觉知识追踪模型，并收集三个挑战性的新数据集，从而评估不同的视觉知识追踪方法的性能，结果表明我们的循环模型能够预测人类学习者在三个挑战性的医学图像和物种识别任务中的分类行为。

Jul, 2022

从互联网提取视觉知识：理解图像数据

本研究针对视觉识别技术中的特征表示、学习算法和标记的训练数据进行了探究，提出了一种基于网络监督的自动图像数据生成方法，以实现对大量视觉概念的高效训练和识别。在 Pascal VOC 2007 数据集上对该方法进行了测试，并取得了明显的优越性能。

Jun, 2019

看见无形：对静态图像中的自动高层次视觉理解的调查

计算机视觉领域的研究论文针对抽象社会概念检测问题，通过对高层视觉理解和计算机视觉任务的研究和聚类，提供了对抽象概念识别的系统回顾。

Aug, 2023

视觉地点识别，你的位置在哪里？

本文通过调查与研究 Visual Place Recognition（VPR）的关键要素，提出一种基于视觉重叠的新的 VPR 定义，并指出未来需要深入关注的挑战和领域。

Mar, 2021

低分辨率图像的视觉地点识别

本研究分析了图像分辨率对基于手工制作的 Visual Place Recognition (VPR) 管道的精度和鲁棒性的影响，并旨在帮助学术研究人员和公司在硬件和软件行业共同设计 VPR 解决方案以及扩展 VPR 算法在商业产品中的应用。

May, 2023

统一感知分析用于场景理解

这篇论文研究了一项名为统一感知分析的新任务，通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念，最后在自然场景中应用训练网络来发现视觉知识。

Jul, 2018

视觉推理与基础合理性：看、记住和推理

该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式，引入基于视觉输入的原理来整合低级视觉能力，使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。

Jun, 2023