新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理,并超越之前的最佳性能表现。
Aug, 2023
图像字幕生成的研究探索了针对名人照片的任务,旨在通过更直观的图像字幕框架丰富新闻报道的叙述,从而增强自动化新闻内容生成,促进信息的更具细致的传播。
Mar, 2024
提出了 Visual News Captioner,这是一种实体感知模型,用于新闻图像字幕的任务。同时,引入了 Visual News,这是一个规模较大的基准,其中包含 100 多万张新闻图片以及相关新闻文章,图像字幕,作者信息和其他元数据等。
Oct, 2020
该论文提出了一种新的图像描述方法,利用新闻文章中的上下文信息,动态扩展输出词典,通过可视化线索有选择性地从文章中提取信息,能够生成探究场景的描述,同时发表了最大的新闻图像字幕数据集 “GoodNews”,并展示了最先进的结果。
Apr, 2019
提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题,该模型通过填充来自于 hashtags 的具体命名实体,使得生成的基于输入图像的模板描述信息更加丰富,实验结果表明该模型在多种评价指标上显著优于单模态基准线。
Apr, 2018
基于规则驱动的新闻字幕生成方法结合语义规则,将大规模预训练模型 BART 引导生成符合规则的新闻句子,并在两个广泛使用的数据集上验证了方法的有效性。
该研究提出了一种端到端模型,用于为嵌入新闻文章的图像生成标题。该模型采用多模态,多头注意力机制,结合字节对编码的转换器语言模型来应对命名实体识别、多义词汇等问题,并在 CIDEr 评分上实现了当前最高水平的四倍提升。
Apr, 2020
本文提出了利用已预训练的视觉和语言检索模型 CLIP 来定位新闻文章中的可视化实体,并通过开放式关系抽取模型捕获非视觉实体,从而显着提高现有模型的性能和实现新的多个基准的最新性能。
Dec, 2022
通过使用新闻文章提供的背景知识,我们提出了一种信息集中的实体感知新闻图片字幕(ICECAP)模型,该模型从句子级别到单词级别逐步集中于相关信息,并在 BreakingNews 和 GoodNews 数据集上进行广泛实验,证明了模型的有效性。
Aug, 2021
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。
Dec, 2023