该论文研究了基于循环神经网络编码、分类和预测序列的方法。通过使用 Fisher 向量和反向传播算法,该论文展示了循环神经网络在视频动作识别和图像注释等领域取得了最先进的结果,同时提供了出人意料的任务转移学习结果。
Dec, 2015
该研究提出了一种新颖的深度监督神经网络模型,利用了视觉跟踪,并结合了深度卷积神经网络(CNN)和循环神经网络(RNN)的鲁棒性来进行视频动作识别任务。研究结果表明,该模型在 UCF101 和 HMDB51 这两个具有挑战性的数据集上表现出色,仅使用卷积特征就可以达到最先进的水平。
Jul, 2016
本篇论文提出了一种行动预测模型,受人类神经结构的启发,在预测未来视觉和时间表现方面,能够预测合理的未来行动,并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合,该模型在多个数据集上优于当前最先进的方法。
Dec, 2019
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
本论文衡量了自主驾驶和机器人等实际应用中关键领域的动作预测任务。为了更准确的预测未来的动作,提出利用未观察的帧的标志挖掘做出预测,利用 ImagineRNN 将动作预测分解为一系列未来功能预测,并通过代理任务和残差预测进一步改进模型。
Jan, 2021
本文旨在研究视频中多人行为预测。文章提出了一种 Discriminative Relational Recurrent Network 模型,通过构建循环图形式对不同演员之间的时空相互作用进行联合建模,从而在不需要显式监督的情况下,学习选择相关性。该方法在 AVA 数据集上预测动作的评估和 J-HMDB 任务的性能都有显著提高。
Apr, 2019
本文提出了一种等价于传统词袋方法的循环神经网络,但可以进行判别式训练,并允许将核计算直接整合到神经网络中,从而解决了复杂性问题;在四个最新的行动识别基准测试上进行了验证,结果表明传统模型以及稀疏编码方法都被超越。
Mar, 2017
本文提出了一种新的动作预测方法,该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数,可以在视频序列仅有少量片段的情况下实现高准确度的预测,并在多个公开数据集上超过了先前最优的动作预测方法,相对提升了 22.0%(JHMDB-21),14.0%(UT-Interaction),和 49.9%(UCF-101)的准确率。
本研究提出了一种深度学习方法,使用多个传感器流的信息,通过递归神经网络和长短期记忆单元的联合学习,从而能够在真实自然环境下预测驾驶员的行驶意图,并在准确度和召回率上达到了很高水平。
Sep, 2015
采用多核支持向量机和多流深度卷积神经网络相结合的方法,在多个方面如摄像机视角、视频质量等具有挑战性的 HMDB-51 数据集上,实现了接近最先进技术的 51 种活动识别问题的性能,同时也表现出人类级别的视觉理解能力,并且结合了改进的稠密轨迹和多跳特征叠加等人工手工制造特征补充了性能。
Jul, 2017