使用转移语义属性的视频字幕生成
本文提出了 LSTM-A 架构,将属性集成到 CNNs 和 RNNs 的图片字幕框架中,并通过端到端的方式对它们进行训练。在 COCO 图片字幕数据集上进行了大量实验,该框架相比业内先进的深层模型获得了更好的结果,其中 METEOR/CIDEr-D 在 Karpathy&Fei-Fei(2015)的公开数据集上达到了 25.2%/ 98.6%,并在 COCO 字幕排行榜上获得了至今的最佳表现。
Nov, 2016
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
本篇文章提出了一种视觉特征编码技术,使用门控循环单元(GRUs)生成语义丰富的视频字幕,并在 MSVD 和 MSR-VTT 数据集上创造了新的 METEOR 和 ROUGE_L 度量标准的最新技术水平。
Feb, 2019
本文提出了一种名为 LSTM-E 的新型统一框架,它可以同时探索 LSTM 和视觉 - 语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明 LSTM-E 在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测 SVO 三元组也超过了几种最先进的技术。
May, 2015
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
Jun, 2015
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性,即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。
Oct, 2023
该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用 LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016