利用分层循环神经网络和时空注意力机制生成视频字幕,在 YouTube 和 TACoS 数据集上验证具有更高 BLEU 得分。
Oct, 2015
本文提出了一种新的层次循环神经编码器(HRNE)方法来利用视频的时间信息,该方法能够有效地减少输入信息流的长度,合成多个连续输入,并降低计算操作,且能够探测不同粒度的帧块之间的时间过渡,应用于视频字幕生成中实验表明其优于现有的视频字幕系统。
Nov, 2015
本文提出使用编码器 - 解码器框架,结合卷积和循环神经网络生成视频和图像描述的更高级模型,通过在编码阶段引入对象和位置信息来获得更丰富的图像表示,并引入双向循环神经网络以捕捉输入帧中的正向和反向时间关系。
Apr, 2016
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的 RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本文提出了一种新的递归视频编码方法和新的视觉空间特征,以改进视频字幕生成任务的效果,实验结果表明,该方法能显著提高视频字幕生成质量。
Jul, 2019
本篇论文提出了一种名为 H-RNN 的分层循环神经网络用于视频摘要,其可以更好地利用帧之间的长时间依赖性,并且在 Combined 和 VTW 两个数据集上表现优于现有技术。
Apr, 2019
本文提出了一种重构网络(RecNet)的架构,该网络利用正反两个方向的流动来进行视频字幕生成,其编码器 - 解码器使用正向流产生编码视频语义特征的句子描述,两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明,所提出的重构器网络能够提高编码器 - 解码器模型的性能,并显著提高视频字幕准确性。
Mar, 2018
本文提出了采用端到端训练的方法来实现视频描述生成,并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。
本篇文章提出了一种视觉特征编码技术,使用门控循环单元(GRUs)生成语义丰富的视频字幕,并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。
Feb, 2019
本研究提出了一种新颖的编码器 - 解码器 - 重构器结构(RecNet)修复网络,通过双向流的运用,从本地和全局的角度,利用先前生成的解码器隐藏状态序列,高效地重构视频特征 ,并通过增强学习、CIDEr 优化微调 RecNet 逐步提高视频字幕的性能
Jun, 2019