该论文主要介绍了一种新型的骨骼动作识别模型叫做 TGN,结合了多尺度图策略来提取骨骼序列的时空特征,得到更好的实验结果。
Dec, 2020
提出了一种名为 TCGL 的自监督学习方法,通过建立图模型来学习视频的时序表示,利用 “片段内” 和 “片段间” 的时间依赖作为时序表示学习的自监督信号,在大规模行动识别和视频检索基准测试中展示了显著的性能优势。
Jan, 2021
本文提出了一种基于图卷积神经网络的新方法 ACGNet,用于增强视频级别标注数据下的弱监督时序动作定位问题,取得了在 THUMOS'14 和 ActivityNet1.2 数据集上的优越结果。
Dec, 2021
通过使用自注意力图卷积网络 (GCN) 技术,本研究提出了一种混合模型,名为多尺度时空自注意力网络 (MSST-GCN),以有效提高建模能力,并在多个数据集上取得了最先进的结果。该模型利用自空间注意力模块来理解帧内不同身体部位之间的关系,利用自时间注意力模块来研究节点帧之间的相关性。随后,通过多尺度卷积网络捕获节点的长程时空依赖关系,将它们组合成高层次的时空表示,并使用 softmax 分类器输出预测的动作。
Apr, 2024
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
Jun, 2024
提出了一种基于 Reconstructive Sequence-Graph Network 的视频摘要算法,该算法通过在长短时记忆和图卷积网络中编码帧和镜头之间的依赖关系并利用重构损失函数,可以用于无监督学习,其通过在 SumMe,TVsum 和 VTW 等数据集上的实验证明了其在摘要任务中的优异性能。
May, 2021
本文提出了一种基于图卷积网络的模型来自适应地整合多层次语义上下文到视频特征中,并将时态行为检测作为一个子图定位问题。实验证明,该模型不需额外监督就可以发现有效视频上下文,且在两个检测评测中均达到最优性能。
Nov, 2019
本篇论文提出了一种有效的 GCN 模块 DTGRM,用于捕获和建模视频帧之间的各个时间跨度的时间关系,并通过提出的自监督任务来增强模型的时间推理能力,这种模块在行为分割方面表现优于现有技术。
本文首次提出 Action Graph 结构来实现多协调及可能同时进行的时间动作相关视频的生成方式,通过 AG2Vid 模型实现了运动和外观特征的分离,并引入了调度机制以协助视频生成,经过对 CATER 和 Something-Something V2 数据集的训练和评估,证明与基线相比,所生成的视频具有更好的视觉质量和语义一致性。同时,该模型还展现了零样本能力,在生成已学习动作的新组合等方面表现出良好的效果。
Jun, 2020
本文提出了一种基于结构化分割网络 (SSN) 的新型框架,该框架可以通过一个结构化的时间金字塔模型来建模每个动作实例的时间结构,并通过划分的判别模型有效地区分正面提议和背景或不完整的提议,在 THUMOS14 和 ActivityNet 数据集上表现优于现有方法。
Apr, 2017