人类极简视频对动态识别模型的启示

ICLRApr, 2021

人类极简视频对动态识别模型的启示

What can human minimal videos tell us about dynamic recognition models?

Guy Ben-Yosef, Gabriel Kreiman, Shimon Ullman

TL;DR研究了人类视觉中空间和时间信息的整合机制，提出了最小视频概念，并发现当前动态视觉识别网络无法重现人类对于整合空间和时间非常有效的能力。

Abstract

In human vision objects and their parts can be visually recognized from purely spatial or purely temporal information but the mechanisms integrating space and time are poorly understood. Here we show that human v

human vision visual recognition spatial information temporal information motion cues

发现论文，激发创造

深度表示学习在动作识别方面的启示

通过可视化两流模型学习识别视频中人类动作所获得的深度时空表示，我们揭示了一些关键的观察结果，例如交叉流融合可以让网络学习到真正的时空特征，而不是简单的外观和动作特征，同时我们发现可视化不仅可以揭示学习到的表示，还可以说明系统失效的原因。

Jan, 2018

快与慢：基于记忆的移动视频物体检测

本文探讨了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。我们通过交替使用传统的特征提取器和极其轻量级的提取器展示了在存在时间记忆的情况下，进行准确检测所需的计算量是非常小的。此外，我们展示了记忆容纳了足够的信息以应用于强化学习算法来学习自适应推断策略。我们的模型在 Imaget VID 2015 数据集上实现了移动方法中的最先进性能，并在 Pixel 3 手机上以 70+ FPS 的速度运行。

Mar, 2019

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

视频中的对象级视觉推理

本文讨论了利用深度学习模型进行人类活动识别研究中的挑战，并提出了一种基于对象感知网络的模型，以实现对视频中的语义意义的时空交互的推理，从而在三个不同的数据集上取得了最先进的结果。

Jun, 2018

视频作为时空区域图

本文提出了利用时空区域图来捕捉人类行为识别的两个重要线索、以及通过图卷积网络来推理这种表示方法的模型，取得了 Charades and Something-Something 数据集上的最优结果

Jun, 2018

视频人体动作识别中的深度神经网络：综述

本篇论文研究了基于视频的人体行为识别任务，通过比较现有的深度学习框架（尤其是视频动作识别的表现）和机器学习框架，提出了多项新颖的研究方案。

May, 2023

深入了解动作识别：综述

本文全面回顾了人类动作识别领域的先驱方法和基于深度学习的方法，展望了该领域未来的新研究方向。

May, 2016

眼中的行为：动态注视数据集和学习显著性模型用于视觉识别

本研究使用人眼追踪数据结合计算机视觉，探究了视觉搜索模式的稳定性、计算机视觉的空间 - 时间兴趣点采样策略与人类注视策略之间的差异，证明人类注视可以被准确预测，且在使用先进计算机视觉实践建立端到端可训练的计算机视觉系统时表现优良。

Dec, 2013

关于学习带有注意力移动的空间序列

我们重新思考了空间序列的数学表示方法，提出了两种假设来解释抽象形成的方式，并将注意力移动视为人类认知的核心，将相关教训应用于更好的学习算法。

Nov, 2023