针对新闻图像字幕生成的实体感知多模态对齐框架

Feb, 2024

针对新闻图像字幕生成的实体感知多模态对齐框架

Entity-Aware Multimodal Alignment Framework for News Image Captioning

Junzhe Zhang, Huixuan Zhang, Xiaojun Wan

TL;DR新闻图像标题任务是图像标题任务的一种变体，要求模型生成与新闻图像和相关新闻文章更相关的标题。多模态大型语言模型在近年来得到快速发展，并在新闻图像标题任务中具有良好的前景。然而，根据我们的实验，普通的多模态大型语言模型在零样本学习环境中生成实体方面的能力还十分有限。仅仅在新闻图像标题数据集上进行微调后，它们处理实体信息的能力仍然不够。为了获得一个更强大的模型来处理多模态实体信息，我们设计了两个多模态实体感知对齐任务和一个对齐框架来对齐模型并生成新闻图像标题。我们的方法在 GoodNews 数据集上的 CIDEr 分数（72.33 -> 86.29）和 NYTimes800k 数据集上的 CIDEr 分数（70.83 -> 85.61）上取得了比先前最先进模型更好的结果。

Abstract

news image captioning task is a variant of image captioning task which requires model to generate a more informative caption with news image and the associated news article. multimodal large language models have

news image captioning multimodal large language models entities zero-shot setting cider score

发现论文，激发创造

实体感知新闻图像标题生成

该研究提出了一种端到端模型，用于为嵌入新闻文章的图像生成标题。该模型采用多模态，多头注意力机制，结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题，并在 CIDEr 评分上实现了当前最高水平的四倍提升。

Apr, 2020

视觉新闻：新闻图片字幕的基准和挑战

提出了 Visual News Captioner，这是一种实体感知模型，用于新闻图像字幕的任务。同时，引入了 Visual News，这是一个规模较大的基准，其中包含 100 多万张新闻图片以及相关新闻文章，图像字幕，作者信息和其他元数据等。

Oct, 2020

多模态知识图谱增强实体感知图像描述

该研究提出一种构建多模态知识图谱，将视觉对象和命名实体联系起来并同时捕捉实体之间的关系在内的新方法，以帮助名实体感知图像并生成更具信息量的事件描述。

Jul, 2021

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

Good News, Everyone! 基于语境的实体感知新闻图片标题生成

该论文提出了一种新的图像描述方法，利用新闻文章中的上下文信息，动态扩展输出词典，通过可视化线索有选择性地从文章中提取信息，能够生成探究场景的描述，同时发表了最大的新闻图像字幕数据集 “GoodNews”，并展示了最先进的结果。

Apr, 2019

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

ICECAP: 信息聚合的实体感知图像描述

通过使用新闻文章提供的背景知识，我们提出了一种信息集中的实体感知新闻图片字幕（ICECAP）模型，该模型从句子级别到单词级别逐步集中于相关信息，并在 BreakingNews 和 GoodNews 数据集上进行广泛实验，证明了模型的有效性。

Aug, 2021

一种新的多模态命名实体识别框架，具有多级对齐

本文针对 Tweet 这类多模态数据，提出一种能够动态对齐图像和文本顺序，实现多级跨模态学习，以提高命名实体识别（MNER）的文本表示的新方法。实验结果及详细分析表明了模型的优势。

May, 2023

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024