提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。
Apr, 2022
本文介绍了一种使用长期特征库的方法,用于增强现有的视频模型,将传统视野仅在 2-5 秒短片内的限制打破,实现了在 AVA、EPIC-Kitchens、Charades 这三个数据集上领先水平的效果。
Dec, 2018
本文提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。通过存储先前与之关联的视觉注意力,系统能够决定在已经看过和描述过的内容的基础上看什么并进行描述。这不仅可以实现更有效的局部关注,而且在生成每个单词时可以实现可处理的视频序列的考虑。在具有挑战性和广受欢迎的 MSVD 和 Charades 数据集上的评估表明,所提出的体系结构优于以前的视频描述方法,而无需外部时间视频特征。
Nov, 2016
本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用 LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016
本文提出了一种新颖的孪生 LSTM 结构,可以顺序地处理图像区域,并通过利用上下文信息增强局部特征表示的区分能力,有效地解决了多个摄像头视图下的行人匹配问题,取得了与最先进方法相媲美的良好效果,为视觉监控领域的研究提供了新思路。
Jul, 2016
本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略,基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT,可以比传统方法少使用 99.5%的计算资源,且在各种情况下实现了状态下最先进的识别准确率,尤其是在行动预测数据集方面。
Jan, 2022
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
Aug, 2017
本文提出了一种灵活的多粒度时间聚合框架,用简单的技术如最大池化和注意力实现了最新的下一步行动和密集预测,并在 Breakfast,50Salads 和 EPIC-Kitchens 数据集上取得了最新的实验结果,且兼容于视频分割和动作识别。
Jun, 2020