将通用预训练的视觉 Transformer 重新塑造为面向对象的场景编码器,用于操作策略
本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer(OCVT)模型,该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态,相较于基于像素的模型,其显著提高了记忆效率,能够在单个 48GB GPU 上训练长度达 70 帧的视频,且在 CATER 任务上取得了最新的实验结果。
Jul, 2021
本文提出了一种方法来解决复杂开放环境下机器人操作的问题,该方法基于先前训练的通用视觉模型作为感知系统的对象先验,并引入了一个基于对象的注意机制来确定相关对象,通过少数轨迹或演示将这些对象纳入学习策略,使用强化学习可以学习多种操作任务。
Aug, 2017
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
Dec, 2021
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
本文提出 Object Scene Representation Transformer (OSRT),一种 3D 中心模型,通过新视角综合技术,能够在无监督学习中从复杂场景中学习到基于对象及其几何形状的 3D 一致分解表示,且其轻量级参数化和新的 Slot Mixer 解码器让其在合成渲染方面比现有方法快多个数量级。
Jun, 2022
本论文介绍了 ViDT,一个将视觉和检测 Transformers 整合在一起,以构建一个有效且高效的物体检测器,其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明,它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡,并且可以实现高扩展性的大型模型,其 AP 为 49.2。
Oct, 2021
本文介绍了 Vision 和 Detection Transformers(ViDT),ViDT 是一个有效和高效的物体检测器,它通过重新配置注意力模块来扩展 Swin Transformer 为独立的物体检测器,并采用多尺度特征和辅助技术来提高检测性能,同时还支持对象检测和实例分割的联合任务学习。该技术已在 Microsoft COCO 基准数据集上获得广泛的评估结果,是目前完全基于 Transformer 的最佳物体检测器之一。
Apr, 2022
本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型,该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系,以几何关注的方式建模。结果表明,这种几何关注对图像描述非常重要,并在 MS-COCO 数据集上的各种标准评估指标上均有改进。
Jun, 2019
本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测,发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020