这不是发废文,是我的猫在发文
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer,它通过适应图片的结构提高了自动图像描述的性能,并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。
Apr, 2020
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
本文介绍了一种基于 Transformer 的图像描述模型 ——CaMEL,其包含两个相互连接的语言模型,采用知识蒸馏的均值教师学习方法,采用不同视觉特征提取器进行评估,结果表明该模型在 COCO 数据集上取得了最先进的结果。
Feb, 2022
本研究介绍了一种新颖的模因生成系统,该系统可根据给定的任何图像产生幽默而相关的字幕,并且还可以被调节到用户自定义的与模板相关的标签。系统使用预训练的 Inception-v3 网络返回进行字幕生成的图像嵌入,通过基于注意力机制的深度 LSTM 模型实现生成 - 这受到广泛认可的 Show and Tell 模型的启发。研究人员通过困惑度和人工评估对模型进行了质量评估,包括所生成的模因的质量和其与真正的模因的区别。结果表明,我们的模型可以生成与真实模因在整体上无法区分的原创模因。
Jun, 2018
本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。
Jan, 2021
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
Apr, 2020