端到端视频字幕生成
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明,相较于之前最先进的模型,我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果,其中在 MSVD 数据集上提升了高达 18%,在 MSR-VTT 数据集上提升了 3.5%。
Jan, 2020
该论文提出了一种多任务强化学习的方法,用于训练端到端视频字幕生成模型,其主要思想是从人工字幕视频中挖掘并构建尽可能多的有效任务,以共同调节端到端神经网络的搜索空间,并得到泛化的视频字幕生成模型。实验结果表明,这种模型在两个基准视频字幕数据集上的表现都大大优于现有方法。
Mar, 2018
本文提出了一种重构网络(RecNet)的架构,该网络利用正反两个方向的流动来进行视频字幕生成,其编码器 - 解码器使用正向流产生编码视频语义特征的句子描述,两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明,所提出的重构器网络能够提高编码器 - 解码器模型的性能,并显著提高视频字幕准确性。
Mar, 2018
本文提出了一种新颖的设计,即 TDConvED,它在视频字幕生成中充分利用编码器和解码器网络中的卷积,具有卷积块结构,在编码器中进一步配备时间变形卷积以实现时间采样的自由形变,并利用时间关注机制进行句子生成,在 MSVD 和 MSR-VTT 视频字幕生成数据集上进行了广泛实验,在与常规基于 RNN 的编码器解码器技术进行比较时获得更好的结果。
May, 2019
本文提出使用编码器 - 解码器框架,结合卷积和循环神经网络生成视频和图像描述的更高级模型,通过在编码阶段引入对象和位置信息来获得更丰富的图像表示,并引入双向循环神经网络以捕捉输入帧中的正向和反向时间关系。
Apr, 2016
我们的项目旨在通过开发结合卷积神经网络(CNN)和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较,研究了多种预训练 CNN 模型的性能变化,并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合,旨在在更节省资源的同时保持模型的有效性。
Apr, 2024
本研究提出了一种基于 Transformer 模型的端到端的视频描述生成方法来解决 dense video captioning 中语言描述与事件提案建立之间的直接联系问题,并通过 ActivityNet Captions 和 YouCookII 数据集的实验表明其性能提高。
Apr, 2018
本研究提出了一种新颖的编码器 - 解码器 - 重构器结构(RecNet)修复网络,通过双向流的运用,从本地和全局的角度,利用先前生成的解码器隐藏状态序列,高效地重构视频特征 ,并通过增强学习、CIDEr 优化微调 RecNet 逐步提高视频字幕的性能
Jun, 2019
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018