为新闻图像字幕选择相关和充分的上下文
该论文提出了一种新的图像描述方法,利用新闻文章中的上下文信息,动态扩展输出词典,通过可视化线索有选择性地从文章中提取信息,能够生成探究场景的描述,同时发表了最大的新闻图像字幕数据集 “GoodNews”,并展示了最先进的结果。
Apr, 2019
提出了 Visual News Captioner,这是一种实体感知模型,用于新闻图像字幕的任务。同时,引入了 Visual News,这是一个规模较大的基准,其中包含 100 多万张新闻图片以及相关新闻文章,图像字幕,作者信息和其他元数据等。
Oct, 2020
通过使用新闻文章提供的背景知识,我们提出了一种信息集中的实体感知新闻图片字幕(ICECAP)模型,该模型从句子级别到单词级别逐步集中于相关信息,并在 BreakingNews 和 GoodNews 数据集上进行广泛实验,证明了模型的有效性。
Aug, 2021
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
Apr, 2020
本篇论文提出了一种新的新闻文章图片标题生成方法,名为 JoGANIC,该方法基于新闻工作者遵循的标题指南,利用标题结构来提高生成质量和引导表示设计,实验结果表明,该方法在生成质量和命名实体相关指标上优于现有方法。
Sep, 2021
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023