为新闻图像字幕选择相关和充分的上下文

EMNLPDec, 2022

为新闻图像字幕选择相关和充分的上下文

Focus! Relevant and Sufficient Context Selection for News Image Captioning

Mingyang Zhou, Grace Luo, Anna Rohrbach, Zhou Yu

TL;DR本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体，并通过开放式关系抽取模型捕获非视觉实体，从而显着提高现有模型的性能和实现新的多个基准的最新性能。

Abstract

news image captioning requires describing an image by leveraging additional context from a news article. Previous works only coarsely leverage the article to extract the necessary context, which makes it challenging for models to identify relevant events and →

news image captioning named entities clip open relation extraction state-of-the-art performance

发现论文，激发创造

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

Good News, Everyone! 基于语境的实体感知新闻图片标题生成

该论文提出了一种新的图像描述方法，利用新闻文章中的上下文信息，动态扩展输出词典，通过可视化线索有选择性地从文章中提取信息，能够生成探究场景的描述，同时发表了最大的新闻图像字幕数据集 “GoodNews”，并展示了最先进的结果。

Apr, 2019

视觉新闻：新闻图片字幕的基准和挑战

提出了 Visual News Captioner，这是一种实体感知模型，用于新闻图像字幕的任务。同时，引入了 Visual News，这是一个规模较大的基准，其中包含 100 多万张新闻图片以及相关新闻文章，图像字幕，作者信息和其他元数据等。

Oct, 2020

ICECAP: 信息聚合的实体感知图像描述

通过使用新闻文章提供的背景知识，我们提出了一种信息集中的实体感知新闻图片字幕（ICECAP）模型，该模型从句子级别到单词级别逐步集中于相关信息，并在 BreakingNews 和 GoodNews 数据集上进行广泛实验，证明了模型的有效性。

Aug, 2021

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

基于规则的新闻字幕生成

基于规则驱动的新闻字幕生成方法结合语义规则，将大规模预训练模型 BART 引导生成符合规则的新闻句子，并在两个广泛使用的数据集上验证了方法的有效性。

Mar, 2024

新闻报道场景下的图像描述

图像字幕生成的研究探索了针对名人照片的任务，旨在通过更直观的图像字幕框架丰富新闻报道的叙述，从而增强自动化新闻内容生成，促进信息的更具细致的传播。

Mar, 2024

新闻图片标题生成中的新闻行业指南意识

本篇论文提出了一种新的新闻文章图片标题生成方法，名为 JoGANIC，该方法基于新闻工作者遵循的标题指南，利用标题结构来提高生成质量和引导表示设计，实验结果表明，该方法在生成质量和命名实体相关指标上优于现有方法。

Sep, 2021

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023