可控长度的图像描述生成
该研究提出了一种新的两阶段模型,称为半自回归图像字幕生成模型,使用部分先验信息和图像特征,先以自回归方式生成一个间歇性序列,然后使用迭代的非自回归方式填充所有跳过的单词,可以更好地权衡性能和速度,并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。
Oct, 2021
本文提出了一种新的长度可控的抽象汇总模型,与以往仅根据编码器 - 解码器模型生成一篇总结不同,我们的模型在编码器 - 解码器模型中结合了单词级别的抽取模块,通过提取重要的词来控制长度,生成了一个同时具有信息和长度控制的汇总。
Jan, 2020
本文提出了一种非自回归解码的模型,使用基于双向自注意力的语言模型来加速推理,生成视频字幕的过程分为两个阶段,通过迭代的修改,得到高质量的细致视频描述,大量实验表明该方法达到了最先进的性能,并获得了高推理效率。
Nov, 2019
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作识别和空时样式转移。
Aug, 2017
提出了一种非自回归解码框架用于图片描述,该框架使用位置对齐和推理策略来指导更进一步的句子生成,实验结果表明此模型相对于自回归模型有显著的加速效果,并且相较于 NA 模型有更好的表现。
Dec, 2019
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018