通过可视化两流模型学习识别视频中人类动作所获得的深度时空表示,我们揭示了一些关键的观察结果,例如交叉流融合可以让网络学习到真正的时空特征,而不是简单的外观和动作特征,同时我们发现可视化不仅可以揭示学习到的表示,还可以说明系统失效的原因。
Jan, 2018
本文探讨了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。我们通过交替使用传统的特征提取器和极其轻量级的提取器展示了在存在时间记忆的情况下,进行准确检测所需的计算量是非常小的。此外,我们展示了记忆容纳了足够的信息以应用于强化学习算法来学习自适应推断策略。我们的模型在 Imaget VID 2015 数据集上实现了移动方法中的最先进性能,并在 Pixel 3 手机上以 70+ FPS 的速度运行。
Mar, 2019
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本文研究了基于物体的方法解决动作识别问题,提出了一种基于多头注意力的配置分析方法,证明将布局信息与外观信息相结合可以提高方法的识别准确率。
Nov, 2021
本文讨论了利用深度学习模型进行人类活动识别研究中的挑战,并提出了一种基于对象感知网络的模型,以实现对视频中的语义意义的时空交互的推理,从而在三个不同的数据集上取得了最先进的结果。
Jun, 2018
本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型,取得了 Charades and Something-Something 数据集上的最优结果
本篇论文研究了基于视频的人体行为识别任务,通过比较现有的深度学习框架(尤其是视频动作识别的表现)和机器学习框架,提出了多项新颖的研究方案。
May, 2023
本文全面回顾了人类动作识别领域的先驱方法和基于深度学习的方法,展望了该领域未来的新研究方向。
May, 2016
本研究使用人眼追踪数据结合计算机视觉,探究了视觉搜索模式的稳定性、计算机视觉的空间 - 时间兴趣点采样策略与人类注视策略之间的差异,证明人类注视可以被准确预测,且在使用先进计算机视觉实践建立端到端可训练的计算机视觉系统时表现优良。
Dec, 2013
我们重新思考了空间序列的数学表示方法,提出了两种假设来解释抽象形成的方式,并将注意力移动视为人类认知的核心,将相关教训应用于更好的学习算法。
Nov, 2023