将通用预训练的视觉 Transformer 重新塑造为面向对象的场景编码器，用于操作策略

May, 2024

将通用预训练的视觉 Transformer 重新塑造为面向对象的场景编码器，用于操作策略

Recasting Generic Pretrained Vision Transformers As Object-Centric Scene Encoders For Manipulation Policies

Jianing Qian, Anastasios Panagopoulos, Dinesh Jayaraman

TL;DR通过使用预训练图像表示编码器和视觉转换器，Scene Objects From Transformers (SOFT) 构建了一个对象中心化嵌入，无需进一步训练即可优化机器人的操作任务。

Abstract

Generic re-usable pre-trained image representation encoders have become a standard component of methods for many computer vision tasks. As visual representations for robots however, their utility has been limited, leading to a recent wave of efforts to pre-train →

pre-trained image representation encoders robotics-specific image encoders scene objects from transformers (soft)pre-trained vision transformers (pvt)object-centric embedding

发现论文，激发创造

生成式视频变压器：物体能否成为语言的基本单位？

本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer（OCVT）模型，该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态，相较于基于像素的模型，其显著提高了记忆效率，能够在单个 48GB GPU 上训练长度达 70 帧的视频，且在 CATER 任务上取得了最新的实验结果。

Jul, 2021

面向通用机器人学习的深度目标中心表示

本文提出了一种方法来解决复杂开放环境下机器人操作的问题，该方法基于先前训练的通用视觉模型作为感知系统的对象先验，并引入了一个基于对象的注意机制来确定相关对象，通过少数轨迹或演示将这些对象纳入学习策略，使用强化学习可以学习多种操作任务。

Aug, 2017

使用视觉 Transformer 进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

物体场景表示变换器

本文提出 Object Scene Representation Transformer (OSRT)，一种 3D 中心模型，通过新视角综合技术，能够在无监督学习中从复杂场景中学习到基于对象及其几何形状的 3D 一致分解表示，且其轻量级参数化和新的 Slot Mixer 解码器让其在合成渲染方面比现有方法快多个数量级。

Jun, 2022

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021

一种可扩展、高效、有效的基于 Transformer 的物体检测器

本文介绍了 Vision 和 Detection Transformers（ViDT），ViDT 是一个有效和高效的物体检测器，它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器，并采用多尺度特征和辅助技术来提高检测性能，同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果，是目前完全基于 Transformer 的最佳物体检测器之一。

Apr, 2022

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

基于 Transformer 的目标检测

本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测，发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果，而且能够保持更高的图像分辨率。

Dec, 2020