图像字幕生成中的人脸插入：带有注意力引导合并的图像字幕生成

Mar, 2024

图像字幕生成中的人脸插入：带有注意力引导合并的图像字幕生成

Inserting Faces inside Captions: Image Captioning with Attention Guided Merging

Yannis Tevissen, Khalil Guetari, Marine Tassel, Erwan Kerleroux, Frédéric Petitpont

TL;DR介绍了 AstroCaptions 数据集，该数据集用于图像描述任务，包含了许多公众人物图像，同时使用可解释的人工智能工具和视觉语言模型的定位能力，提出了一种将识别出的人物姓名插入标题的新方法，取得了显著的描述质量提升和减少幻觉的潜力。

Abstract

image captioning models are widely used to describe recent and archived pictures with the objective of improving their accessibility and retrieval. Yet, these approaches tend to be inefficient and biased at retrieving people's names. In this work we introduce →

image captioning astrocaptions people's names ex-plainable ai tools captions quality

发现论文，激发创造

提高人脸生成质量及配套使用合成字幕

通过引入一种无需训练的流程，从人脸图像生成真实的外貌描述，进而改进了文本到图像扩散模型的能力，并提高了其遵循给定提示的能力。

May, 2024

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

SciCap+: 研究科学图标题挑战的知识增强数据集

通过扩充 SciCap 数据集，创新性地将科技论文中的图例标注生成作为知识增强图像标注任务，提高自动标注的效率与准确性，并探讨了从不同模视觉图像和文本知识融合的角度进行标注生成的实验研究。

Jun, 2023

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017

FaceAtt：利用面部特征增强人像图像的图像字幕生成

自动图像标题生成是一个关键的研究领域，通过 FaceAtt 模型提出了一种强调准确描绘图像中面部属性的新方法，自动检测和描述多种属性，并使用深度学习技术评估了模型的性能和指标。此外，研究还涉及到自动标题生成中的伦理考虑，为未来改进属性关注的标题生成技术、提高语言连贯性、解决偏见问题和满足多样化用户需求提供了基础。

Sep, 2023

融合模型用于改进视觉字幕生成

本文提出了一个通用的多模态模型融合框架，以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合，以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。

Oct, 2020

通过个性化实现引人入胜的图像字幕

本研究定义了一项全新的任务 —— 人格化字幕，旨在提高人类与机器之间的互动性，并基于 215 种可能的人格特征收集并发布了 201,858 个字幕的大型数据集。该研究运用了转换器及 1.7 亿对话样本对句子表示进行建模，通过 Mahajan 等人（2018 年）的图像表示及针对 35 亿社交媒体图像进行训练的 ResNets 得到图像表示。本文在 Flickr30k 和 COCO 上取得最优表现，并经在线评估验证其在人与机器之间的互动性。

Oct, 2018