新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理,并超越之前的最佳性能表现。
Aug, 2023
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
这篇论文讨论了我们在图像字幕生成实验中的结果,并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性,在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕,并提出了一些挑战性的假设。
May, 2018
该论文提出了一种新的图像描述方法,利用新闻文章中的上下文信息,动态扩展输出词典,通过可视化线索有选择性地从文章中提取信息,能够生成探究场景的描述,同时发表了最大的新闻图像字幕数据集 “GoodNews”,并展示了最先进的结果。
Apr, 2019
提出了 Visual News Captioner,这是一种实体感知模型,用于新闻图像字幕的任务。同时,引入了 Visual News,这是一个规模较大的基准,其中包含 100 多万张新闻图片以及相关新闻文章,图像字幕,作者信息和其他元数据等。
Oct, 2020
本篇论文提出了一种新的新闻文章图片标题生成方法,名为 JoGANIC,该方法基于新闻工作者遵循的标题指南,利用标题结构来提高生成质量和引导表示设计,实验结果表明,该方法在生成质量和命名实体相关指标上优于现有方法。
Sep, 2021
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
该文讨论了图像字幕生成的各种模型,描述了对象识别和机器翻译的进展以及如何实现该模型,最后使用标准评估矩阵评估了该模型的性能。
Jan, 2018
本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体,并通过开放式关系抽取模型捕获非视觉实体,从而显着提高现有模型的性能和实现新的多个基准的最新性能。
Dec, 2022
本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度,并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型,表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度,同时还表明将图像分类器与文本分类器进行融合可以提高准确性。
May, 2023