检索辅助的图像字幕生成

Feb, 2023

Retrieval-augmented Image Captioning

Rita Ramos, Desmond Elliott, Bruno Martins

TL;DR提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Abstract

Inspired by retrieval-augmented language generation and pretrained Vision and Language (V&L) encoders, we present a new approach to image captioning that generates sentences given the input image and a set of cap

retrieval-augmented language generation pretrained vision and language encoders image captioning multimodal encoder representations pretrained v&l encoders

发现论文，激发创造

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

视觉实体的可迁移解码用于零样本图像字幕生成

我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Jul, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023

Re-ViLM: 检索增强的视觉语言模型，用于零和少量样本图像字幕生成

本研究提出了一种基于 Flamingo 模型的 Retrieval-augmented Visual Language Model（Re-ViLM）, 支持检索外部数据库的相关知识，减少模型参数数量，适应新数据评估。研究表明，Re-ViLM 显著提高了图像到文本生成任务的性能，在没有领域内数据和少量领域内数据的情况下，参数数量是基线方法的四倍。

Feb, 2023

探索利用检索增强的伪造句子生成进行无注释图像字幕生成

提出了一种新的策略 “基于 LPM 和检索增强学习” 来训练图像说明器，该策略利用大型预训练模型（LPM）的先验知识作为监督，并通过检索过程来进一步增强其有效性，在不使用昂贵的预训练过程的情况下，超越了目前最先进的预训练模型，并通过使用生成的伪句子作为弱监督来提高 1％半监督图像说明基准的性能。

Jul, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022