利用叙述性教学视频的语境化物体嵌入

Jul, 2020

利用叙述性教学视频的语境化物体嵌入

COBE: Contextualized Object Embeddings from Narrated Instructional Video

Gedas Bertasius, Lorenzo Torresani

TL;DR该论文提出了一种从自动转录的指导视频中学习上下文化对象嵌入（COBE）的新框架，利用语言的语义和组成结构，通过训练视觉检测器预测对象的上下文化词嵌入来实现对象状态和上下文的识别，实验表明在少样本和零样本学习方面非常有效。

Abstract

Many objects in the real world undergo dramatic variations in visual appearance. For example, a tomato may be red or green, sliced or chopped, fresh or fried, liquid or solid. Training a single detector to accurately recognize tomatoes in all these different states is challenging. On the other hand, contextual cues (e.g., the presence of a knife, a cutting b

contextualized object embeddings object state recognition few-shot learning zero-shot learning instructional videos

发现论文，激发创造

面向上下文感知语音识别的视觉特征

该论文提出了一种基于 DNN 技术的语音识别系统及 RNN 语言模型来提高视频自动生成的字幕准确性，通过对视频中自动检测到的物体或场景的条件来减少困惑度和提高转录，可以应用于机器人、人机交互及音视频存档索引等领域。

Dec, 2017

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

Microsoft COCO：上下文中的通用物体

本研究旨在推进目标识别的最新进展，提出了一种数据集的形式，通过将目标识别的问题置于场景理解的更广泛背景下，聚集了包含常见物品的复杂日常场景的图像，并利用每个实例分割对物品进行标记以协助精确定位，该数据集包含 91 种 4 岁儿童容易识别的对象类型，有 328k 张图像和 250 万个标记实例。本文最终提供了一种基于可变形零件模型的边界框和分割检测结果的基线性能分析。

May, 2014

基于元学习的深度视觉词语快速视频对象分割

通过使用聚类，元学习和嵌入式空间中的视觉单词等技术，我们开发了一种快速，因果算法，可在单个前向传递中分割可变数量的对象，并在四个视频分割数据集上实现了最新的速度 / 精度折衷，在不需要调优，附加输入或后处理的情况下。

Dec, 2018

OCBEV: 基于物体的 BEV Transformer 用于多视角 3D 物体检测

提出了一种新的 Object-Centric query-BEV 检测器 OCBEV 方法，它可以更有效地针对动态场景中移动目标的时间和空间线索。经过在挑战性的 nuScenes 数据集进行广泛实验评估后，该方法取得了最先进的结果，比传统的 BEVFormer 提高了 1.5 个 NDS 点，并具有更快的收敛速度和更少的训练迭代次数来达到相似的性能。

Jun, 2023

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

不要以物品所处环境论其价值：学习克服语境偏见

通过学习两个特征子空间，分别表示没有上下文环境的类别和同时表示类别和上下文环境的联合特征子空间，以减少上下文偏差，提高分类准确度，适用于目标和属性两项任务。

Jan, 2020

基于知识图谱的上下文驱动视觉对象识别

通过将语境知识编码到知识图中，提高深度学习方法的鲁棒性，增强物体识别模型对于跨领域和真实世界场景的表现。

Oct, 2022

DesCo: 利用丰富的语言描述学习物体识别

该研究提出了一种新的描述条件（DesCo）学习范式，利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力，从而在零样本检测环境下，超越了先前的最先进模型，以提高物体识别的准确性。

Jun, 2023

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023