ActionFormer:使用 Transformers 定位行为片段
本文提出了一种名为 ASFormer 的高效 Transformer 模型,通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题,并在三个公共数据集上进行了广泛实验。
Oct, 2021
通过引入有序时序学习问题和引入新的有向注意力机制,提出了一个新的基于 Transformer 的框架来解决行为识别问题,并在三个标准大规模基准测试上实现了与最近的行为识别方法相比的最先进的结果。
Mar, 2022
提出 TALLFormer, 一种内存高效、可训练的时间动作定位 Transformer 方法,其长期记忆机制消除了在每个训练迭代中处理数百个冗余视频帧的需要,从而显著降低了 GPU 内存消耗和训练时间。
Apr, 2022
提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法,其中结合 3D 卷积神经网络(3D CNN)和视频变换器(VIT)的独特方法能够有效捕捉行为的局部和全局上下文信息,从而在标记数据的一小部分情况下实现了卓越的性能。
Apr, 2024
本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作,使用 Transformer 风格的架构聚合人物周围的时空背景特征,通过高分辨率、个性化、类别不可知的查询,该模型自动学习跟踪个人并从他人的动作中获取语义上下文
Dec, 2018
本研究提出了一种基于交互 Transformer 的新模型,该模型结合了时间和空间的注意力机制,通过使用图形和交互距离模块进一步提高了空间注意力的性能,可用于生成更复杂和长期的交互动作。
Jul, 2022
论文提出了一个新的 Transformer 模型 AgentFormer,该模型可以联合模拟时间和社交两个维度,用于预测多智能体行为,同时考虑了多智能体的影响以及不确定性。该模型具有良好的性能,并在公共数据集上取得了 state-of-the-art 的结果。
Mar, 2021
本文介绍了 SeqFormer,一种基于视频实例分割的模型,通过注意力机制捕捉视频帧之间的关系,定位每帧的实例并聚合时间信息,从而实现自然的实例跟踪并预测动态遮罩序列,结合 Swin Transformer 可获得更高的 AP,是视频实例分割领域的强基线模型。
Dec, 2021
本文研究了时域动作定位的方法,发现基于变压器的方法可以实现更好的分类性能,但不能生成准确的动作提案,最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能,最终在 CVPR2021HACS 挑战中取得了第一名。
Jun, 2021
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024