深度学习中的栈式字幕生成:图像字幕学习的粗到细的逐层逼近学习
本文提出了一种非自回归解码的模型,使用基于双向自注意力的语言模型来加速推理,生成视频字幕的过程分为两个阶段,通过迭代的修改,得到高质量的细致视频描述,大量实验表明该方法达到了最先进的性能,并获得了高推理效率。
Nov, 2019
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明,相较于之前最先进的模型,我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果,其中在 MSVD 数据集上提升了高达 18%,在 MSR-VTT 数据集上提升了 3.5%。
Jan, 2020
提出了一个基于多阶段架构的模型 (Stack-VS),与底层 (top-down) 和高层 (bottom-up) 注意力模型结合来生成优质图片标题。使用 LSTM 解码器单元在可视层级和语义层级信息上重定义关注权重,并在 MSCOCO 基准测试中取得了显著的提高。
Sep, 2019
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了传统基线系统。
Jan, 2022
该研究主要利用不同的图像编码方法,来提高图像描述的质量和数据效率,通过在编码视图之间提出对比损失的方式来提高编码质量,并且通过层次式解码器自适应地权衡编码视图的价值,得到了显著的性能提升。
May, 2023
本研究旨在利用预先训练的卷积神经网络,结合注意力机制和循环神经网络,将图像特征与语言模型相结合,实现图像描述生成。实验结果与现有先进方法相比,具有竞争性的性能。
Mar, 2022