基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
该论文介绍了一种使用 Transformer 模块在多个分辨率上有效合并局部和全局上下文关系的相机和 LiDAR 数据融合方法,并通过与两个具有长途路线和高密度交通的对抗基准的广泛实验证实了该方法的性能优势。与之前的方法相比,该方法在最具挑战性的基准测试中取得了显著更高的驾驶和违规得分,对于 Longest6 和 Town05 Long 基准测试,分别取得了 8% 和 19% 的提升。
Aug, 2023
该研究引入了一种利用多视角驾驶员行为图像检测驾驶员分心的新方法,该方法基于姿态估计和动作推理的视觉变换器框架,名为 PoseViNet。通过将姿势信息添加到变换器中,使其更加专注于关键特征,从而更好地识别关键动作。通过与现有模型在两个不同的数据集上的比较,证明了 PoseViNet 的优越性。在具有挑战性的 SynDD1 数据集上,PoseViNet 实现了 97.55%的验证准确率和 90.92%的测试准确率。
Dec, 2023
本文研究了基于视觉编码器和多模式视频文本交叉编码器的两个框架,通过结合 CNN 视觉和 Transformer 编码器,增强了细粒度行动识别的效果,并在 FineGym 基准数据集上取得了最新的最优性能。
Aug, 2022
本文研究了时域动作定位的方法,发现基于变压器的方法可以实现更好的分类性能,但不能生成准确的动作提案,最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能,最终在 CVPR2021HACS 挑战中取得了第一名。
Jun, 2021
本文提出一种新颖的基于 Transformer 的架构,用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入,通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。
Apr, 2020
我们提出了一个多阶段的 3D 序列到序列人体姿势检测框架,利用变压器的自注意力机制从多视角视频数据中捕捉空间 - 时间相关性,实验结果表明我们的方法在 Human3.6M 数据集上表现出色。
Jan, 2024
本文提出了一种新的空时变换器网络(ST-TR),该网络利用 Transformer 自我注意机制对 3D 骨架中的关节之间的依赖关系进行建模。空间自我注意模块(SSA)用于理解不同身体部位之间的帧内相互作用,而时间自我注意模块(TSA)用于建模帧间的相关性。两个模块在两个流网络中被结合使用,对 NTU-RGB + D 60 和 NTU-RGB + D 120 上的相同输入数据优于同类基准模型。
Dec, 2020
为了最好地利用时空信息,我们研究了在空间和时间上融合 ConvNet 塔的多种方法,并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构,以融合视频片段的空时信息,并在标准基准测试中评估了其性能,该架构达到了最先进的结果。
Apr, 2016