不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

Jun, 2023

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning

Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Niyati Chhaya, Sumit Shekhar

TL;DR本文提出了一个基于context-aware image captioning的unified Vision-Language (VL) model，并利用pretraining技术解决了context-independent问题，以达到比以前更好的效果。

Abstract

Well-formed context aware image captions and tags in enterprise content such as marketing material are critical to ensure their brand presence and content recall. Manual creation and updates to ensure the same is non trivial given the scale and the tedium towards this task. We propose a new unified Vision-Language (VL) model based on the One For All (OFA) mo

发现论文，激发创造

来自上下文无关监督的上下文感知字幕

本文针对图像生成环境下的语境问题，提出了一种关键词区分的图像描述生成方法，该方法不需要针对每个具体图像进行训练，可以在广泛的背景数据上实现对关键特征的描述和生成。根据实验和人类调查结果显示，该方法在区分性描述上优于基准生成型和发话人-听众型方法。

Jan, 2017

Good News, Everyone! 基于语境的实体感知新闻图片标题生成

该论文提出了一种新的图像描述方法，利用新闻文章中的上下文信息，动态扩展输出词典，通过可视化线索有选择性地从文章中提取信息，能够生成探究场景的描述，同时发表了最大的新闻图像字幕数据集“GoodNews”，并展示了最先进的结果。

Apr, 2019

上下文感知的视觉策略网络用于细粒度图像字幕生成

该论文提出了一种上下文感知的视觉策略网络（CAVP）来实现细粒度的图像描述生成，通过明确考虑前面的视觉注意力并使用当前视觉注意力决定是否将其用于当前词/句子生成，CAVP 可以随时间考虑复杂的视觉组合，从而在MS-COCO和Stanford字幕数据集上表现出卓越的性能。

Jun, 2019

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

图像字幕生成的视觉语言预训练规模化提升

本研究介绍了LEMON，一个大规模图像描述生成模型，探究了基于视觉-语言预训练的transformer模型在图像描述生成中的可扩展性，并使用大量数据和不同训练方法对其进行了实验和分析，取得了多个数据集上的最新成果。

Nov, 2021

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自Visual Genome数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022

CapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义

本文提出了一种基于 Vision-Language Pre-training 模型的插拔式框架 CapEnrich，通过自动数据构建策略和可学习/模板提示策略，为万维网上的无标签图片生成更加完整，丰富和具备语义的文本描述，从而将其应用于多模态检索和推荐等实际应用中。

Nov, 2022

为新闻图像字幕选择相关和充分的上下文

本文提出了利用已预训练的视觉和语言检索模型CLIP来定位新闻文章中的可视化实体，并通过开放式关系抽取模型捕获非视觉实体，从而显着提高现有模型的性能和实现新的多个基准的最新性能。

Dec, 2022

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了VisCE2在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024