图像字幕
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度,并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型,表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度,同时还表明将图像分类器与文本分类器进行融合可以提高准确性。
May, 2023
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩,并提供了一个基于 TensorFlow 开源的实现。
Sep, 2016
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017