Feb, 2024

针对新闻图像字幕生成的实体感知多模态对齐框架

TL;DR新闻图像标题任务是图像标题任务的一种变体,要求模型生成与新闻图像和相关新闻文章更相关的标题。多模态大型语言模型在近年来得到快速发展,并在新闻图像标题任务中具有良好的前景。然而,根据我们的实验,普通的多模态大型语言模型在零样本学习环境中生成实体方面的能力还十分有限。仅仅在新闻图像标题数据集上进行微调后,它们处理实体信息的能力仍然不够。为了获得一个更强大的模型来处理多模态实体信息,我们设计了两个多模态实体感知对齐任务和一个对齐框架来对齐模型并生成新闻图像标题。我们的方法在 GoodNews 数据集上的 CIDEr 分数(72.33 -> 86.29)和 NYTimes800k 数据集上的 CIDEr 分数(70.83 -> 85.61)上取得了比先前最先进模型更好的结果。