基于位移切块的时空表示学习变压器
基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式,主流方法利用循环单元进行建模,但循环单元的并行性不足,常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量,我们提出了一种创新的三元注意力变换器,在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中,我们取代了传统的循环单元,并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下:(i) 时序标记包含了帧间的抽象表示,有助于捕捉固有的时序依赖性;(ii) 空间和通道的注意力结合,通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明,我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法,达到了最先进水平。
Oct, 2023
本文提出一种 Temporal Patch Shift(TPS)方法,用于在 transformer 模型中对视频进行高效的三维自注意力建模,可插入到现有的二维 transformer 模型中以增强时空特征学习,该方法在计算和内存成本上比现有方法更加高效,同时在 Something-something V1&V2、Diving-48 和 Kinetics400 上取得了与最先进水平相当的性能。
Jul, 2022
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
Feb, 2021
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
本文提出一种新颖的基于 Transformer 的架构,用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入,通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。
Apr, 2020
提出一种基于移位块机制的 SChunk-Transformer 和 SChunk-Conformer 模型,可以较好地解决全局上下文建模和训练效率问题,在 AISHELL-1 测试集上分别取得 6.43% 和 5.77% 的 CER 准确率,与传统的块式模型相比性能更佳。
Mar, 2022
利用混合 Transformer 和时空自监督学习的模型来提高长期交通预测的鲁棒性,该模型通过在交通数据的序列级和图级应用自适应数据增强技术来增强其鲁棒性,利用 Transformer 克服了循环神经网络在捕捉长期序列方面的局限性,并采用 Chebyshev 多项式图卷积来捕捉复杂的空间依赖关系。此外,考虑到时空异质性对交通速度的影响,我们设计了两个自监督学习任务来建模时空异质性,从而提高模型的准确性和泛化能力。在两个真实数据集 PeMS04 和 PeMS08 上进行了实验评估,结果进行了可视化和分析,证明了所提模型的卓越性能。
Jan, 2024
本研究将 Transformer 应用于基于视频的人体再识别,提出一种新的基于预训练的模型,并使用感知约束的时空 Transformer 模块和全局 Transformer 模块转换到下游域,取得了显著的准确率提高。
Mar, 2021
本研究提出了一种基于聚类的稀疏 Transformer 模型,它由滑动窗口层和 Cluster-Former 层组成,能够跨越窗口编码本地序列信息和全局上下文信息,这种新的设计在回答具有长程依赖性的问题时尤其有益,实验结果表明其在多项 QA 基准测试中实现了最先进的性能。
Sep, 2020