野外场景下的丰富图像描述
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
该研究采用创意图像和文本生成 AI 系统,通过多模态框架实现了多样化的标题和图像创建,同时采用 Transformer 网络模型支持多种标题参考,采用非自回归解码策略实现实时推断。
Oct, 2021
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩,并提供了一个基于 TensorFlow 开源的实现。
Sep, 2016
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
提出一种使用知识库指导的、包括多个抽象概念的多实体标签图像识别模型,在描绘描绘未知 / 新物体的图像生成模型中,利用第一步预测的抽象概念作为外部语义关注和约束推理的依据,以处理野外图像中的抽象概念,对 MSCOCO 数据集进行了实验验证,结果显示出了优于以前大部分工作的性能,并可用于知识和视觉的通用集成。
Oct, 2017
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
Apr, 2020
提出了 Visual News Captioner,这是一种实体感知模型,用于新闻图像字幕的任务。同时,引入了 Visual News,这是一个规模较大的基准,其中包含 100 多万张新闻图片以及相关新闻文章,图像字幕,作者信息和其他元数据等。
Oct, 2020