原型 Transformer 作为统一运动学习器

Jun, 2024

原型 Transformer 作为统一运动学习器

Prototypical Transformer as Unified Motion Learners

Cheng Han, Yawen Lu, Guohao Sun, James C. Liang, Zhiwen Cao...

TL;DR通过 Prototypical Transformer（ProtoFormer）框架，本研究从原型视角途径多种动作任务。ProtoFormer 通过深思熟虑地考虑动作动态性引入了原型学习与 Transformer 的完美结合。交叉注意力原型化通过基于典型动作模式发现原型，提供了对动作场景的透明理解。同时，潜在同步通过原型引导特征表示学习，有效缓解了动作不确定性问题。实证结果表明，该方法在光流、场景深度等流行的动作任务上取得了有竞争力的性能。此外，它还在物体跟踪和视频稳定等多种应用任务中展现了广泛适用性。

Abstract

In this work, we introduce the prototypical transformer (ProtoFormer), a general and unified framework that approaches various motion tasks from a prototype perspective. ProtoFormer seamlessly integrates

prototypical transformer motion tasks prototype learning cross-attention prototyping latent synchronization

发现论文，激发创造

ProMotion: 原型作为动作学习者

通过 ProMotion 作为通用的框架模型来建模基础运动任务，该模型以其特殊属性区别于当前特定任务的范例，创建了一个统一的模式，通过特征去噪器和范例学习器的双重机制，解析运动的细微之处，并在各种 2D 和 3D 后处理任务中展示了出色的适用性，希望这项工作能在计算机视觉的普适模型中催生范式转变。

Jun, 2024

ProtoPFormer：基于原型部件的视觉 Transformer 模型用于可解释的图像识别

本文针对 prototypical part network 在 vision transformer 上的应用存在的 “干扰” 问题，提出了 prototypical part transformer 方法，引入全局和局部原型来捕捉和突出目标的代表性整体和部分特征，并通过显式监督控制局部原型，从而提高整体的可解释性与表现。

Aug, 2022

Protoformer: 使用原型嵌入 Transformer

Protoformer 是一种新颖的自学习框架，其适用于 Transformers 以解决真实世界数据中包含的异常和嘈杂标签等挑战，可以提高当前 Transformers 在各种经验设置中的准确性。

Jun, 2022

Human MotionFormer：基于视觉 Transformer 的人类动作转移

本论文提出了一种基于全球和本地感知的分层的 ViT 框架 Human MotionFormer，旨在提高人类运动转移中的特征匹配和运动品质，该方法通过多个块的特征匹配和运动传递，实现了全局特征匹配，进一步引入了卷积层来改善局部感知，实现了平移和生成分支之间的协同监督来训练更好的运动表示，取得了最先进的效果。

Feb, 2023

TrackFormer：基于 Transformer 的多目标跟踪

TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法，利用注意力实现帧到帧的数据关联，以查询的形式自回归地跟踪现有轨迹并初始化新轨迹，能够实现目前最先进的多目标跟踪的性能。

Jan, 2021

具有全局意图定位和局部运动细化的运动变换器

本文提出了一个 Motion TRansformer (MTR) 框架，将运动预测看作全局意向定位和局部运动细化的联合优化问题，通过可学习的少量运动查询对来引入空间意向先验，实现了更好的多模态预测。实验表明，该方法在多个运动预测挑战上均达到了最先进的水平，并在 Waymo 开放式运动数据集的排行榜上排名第一。

Sep, 2022

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

无监督骨骼动作学习的全局 - 局部运动转换器

本论文提出了一种新的 transformer 模型，旨在实现对骨架运动序列的无监督学习。该模型结合了全局和局部注意机制，通过新的预训练策略，成功地学习了局部和全局的内容，并在测试中显示出了优异的性能。

Jul, 2022

统一流场、立体和深度估计

本文提出了一种统一的模型形式和模型，可以用于光流、矫正立体匹配和从定位图像中估计无校准立体深度。该模型使用 Transformer 中的交叉注意力机制实现判别特征表示，并在允许跨任务转移的同时，在多个数据集上实现或超过现有最新方法的性能。

Nov, 2022

基于运动变压器的轨迹预测的迁移学习研究

基于变压器模型的模拟研究进行了转移学习技术的研究，旨在为在现实世界中实现有效的转移提供性能与计算时间之间可能的权衡的见解。

Apr, 2024