分离式新颖物体描述生成器
本文提出了 Novel Object Captioner (NOC) 模型,利用外部数据源和语义嵌入使模型适用于不在现有图像字幕数据集中出现的数百种物体分类,并表现出对现有罕见分类的能力,自动评估和人类判断均表明,该模型在描述物体方面比之前的工作表现更好。
Jun, 2016
本文提出了一种新的深度神经网络模型 —— 深度组合描述器(DCC),用于描述在未配对图像 - 句子数据集中出现的新概念,可以利用大型对象识别数据集和外部文本语料库,并在语义上相似的概念之间进行知识转移,从而可以描述新的对象及其与其他对象的交互作用。
Nov, 2015
本文介绍了一种使用层叠修订网络的图像标题生成方法,在未知物体出现时,利用外部知识(物体检测模型)进行修订,从而精确地描述图像。试验证明该方法在 MSCOCO 数据集和 ImageNet 数据集上效果显著。
Aug, 2019
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本论文提出了一种新颖的图像字幕生成模型,可在生成自然语言描述的同时,引入与图像实体检测相关的概念填充,通过生成带有显式图像区域链接的句子模板,并利用检测到的可视化概念填充这些区域,实现端到端的可微分框架,并在标准图像字幕生成和新物体字幕生成上达到了当前最先进水平。
Mar, 2018
本文旨在探索无监督图像标注任务,使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系,以此提高无监督方法的性能表现。
Dec, 2021
本文介绍了一种基于对象描述的联合学习视觉和语言以深入了解对象的方法,并提出了两个新的架构来解决对象字幕和基于自然语言的对象检索单元。研究表明,使用混合的端到端 CNN-LSTM 网络可以有效地解决两个问题,并在推理时间非常快的同时,提供了对对象的详细理解。
Mar, 2018
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023