新闻报道场景下的图像描述

Mar, 2024

Image Captioning in news report scenario

Tianrui Liu, Qi Cai, Changxin Xu, Zhanxin Zhou, Jize Xiong...

TL;DR图像字幕生成的研究探索了针对名人照片的任务，旨在通过更直观的图像字幕框架丰富新闻报道的叙述，从而增强自动化新闻内容生成，促进信息的更具细致的传播。

Abstract

image captioning strives to generate pertinent captions for specified images, situating itself at the crossroads of computer vision (CV) and Natural Language Processing (NLP). This endeavor is of paramount import

image captioning computer vision natural language processing celebrity photographs news reporting

发现论文，激发创造

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

Good News, Everyone! 基于语境的实体感知新闻图片标题生成

该论文提出了一种新的图像描述方法，利用新闻文章中的上下文信息，动态扩展输出词典，通过可视化线索有选择性地从文章中提取信息，能够生成探究场景的描述，同时发表了最大的新闻图像字幕数据集 “GoodNews”，并展示了最先进的结果。

Apr, 2019

视觉新闻：新闻图片字幕的基准和挑战

提出了 Visual News Captioner，这是一种实体感知模型，用于新闻图像字幕的任务。同时，引入了 Visual News，这是一个规模较大的基准，其中包含 100 多万张新闻图片以及相关新闻文章，图像字幕，作者信息和其他元数据等。

Oct, 2020

新闻图片标题生成中的新闻行业指南意识

本篇论文提出了一种新的新闻文章图片标题生成方法，名为 JoGANIC，该方法基于新闻工作者遵循的标题指南，利用标题结构来提高生成质量和引导表示设计，实验结果表明，该方法在生成质量和命名实体相关指标上优于现有方法。

Sep, 2021

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

使用深度神经网络架构进行图像字幕生成

该文讨论了图像字幕生成的各种模型，描述了对象识别和机器翻译的进展以及如何实现该模型，最后使用标准评估矩阵评估了该模型的性能。

Jan, 2018

为新闻图像字幕选择相关和充分的上下文

本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体，并通过开放式关系抽取模型捕获非视觉实体，从而显着提高现有模型的性能和实现新的多个基准的最新性能。

Dec, 2022

图像字幕有时传达的信息超过其所能看到的图像

本研究探讨了图像字幕生成器将原始图像信息转化为文本时信息的损失程度，并通过对比使用标准图像分类器和仅使用文本分类器进行的灾难图像分类任务的结果来评估了几种图像字幕生成模型，表明在某些情况下文本分类器可以比标准图像分类器实现更高的准确度，同时还表明将图像分类器与文本分类器进行融合可以提高准确性。

May, 2023