本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用 LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016
利用分层循环神经网络和时空注意力机制生成视频字幕,在 YouTube 和 TACoS 数据集上验证具有更高 BLEU 得分。
Oct, 2015
本论文提出了一种循环视频编码方案,可以发现和利用视频的分层结构,并且改善了电影描述数据集的现有技术结果。
Nov, 2016
该研究提出了一种基于深度卷积神经网络和分层递归神经网络的图像分类模型,以更好地编码图像区域之间的空间和比例依赖关系,从而取得了在四个具有挑战性的目标 / 场景图像分类基准测试中最先进的结果。
Sep, 2015
提出了一种基于 Reconstructive Sequence-Graph Network 的视频摘要算法,该算法通过在长短时记忆和图卷积网络中编码帧和镜头之间的依赖关系并利用重构损失函数,可以用于无监督学习,其通过在 SumMe,TVsum 和 VTW 等数据集上的实验证明了其在摘要任务中的优异性能。
May, 2021
本文提出了一种新的层次循环神经编码器(HRNE)方法来利用视频的时间信息,该方法能够有效地减少输入信息流的长度,合成多个连续输入,并降低计算操作,且能够探测不同粒度的帧块之间的时间过渡,应用于视频字幕生成中实验表明其优于现有的视频字幕系统。
Nov, 2015
本文提出了一种端到端的视觉叙事问题的解决方案,首先使用基于层次注意的循环神经网络对相册照片进行编码,然后选择代表性的照片,并为其撰写自然语言的相册故事。经自动化和人工评估表明,该模型在选择、生成和检索方面的性能均优于基线模型。
Aug, 2017
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
提出了一种基于弱监督分层强化学习框架的视频摘要算法,该算法将任务分解为多个子任务,通过训练管理器网络为每个子任务设置子目标,在此基础上使用策略梯度预测视频帧的重要性得分,通过定义的子奖励和全局奖励来解决稀疏问题,并在两个基准数据集上实验证明其具有最佳性能。
Jan, 2020
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。
Feb, 2015