理解用于检索增强图像字幕生成的检索鲁棒性

ACLJun, 2024

理解用于检索增强图像字幕生成的检索鲁棒性

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott

TL;DR近期关于图像字幕检索增强模型的研究进展强调检索相关字幕对于具有强领域转移能力的高效轻量级模型的重要性。本文分析了 SmallCap 检索增强字幕模型的鲁棒性，发现该模型对出现在大多数检索字幕中的标记敏感，并可能将这些标记复制到最终字幕中。基于此发现，我们建议通过从更多多样化的集合中采样检索字幕来训练模型，从而降低模型学习复制大多数标记的概率，并有效地提升领域内外的性能。

Abstract

Recent advancements in retrieval-augmented models for image captioning highlight the significance of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While t

retrieval-augmented models image captioning retrieval models robustness analysis diverse sets

发现论文，激发创造

SmallCap：轻量级图像字幕生成联合检索增强

SmallCap 是一个轻量且快速的图像字幕生成模型，它通过用与目标图像相关的字幕在数据存储中进行训练，而无需对模型进行额外的微调以实现跨域迁移学习，同时避免了扩大模型规模的开销。

Sep, 2022

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

指导图像字幕模型生成更具体的字幕

基于图像的标题生成任务中，我们展示了通过微调自回归标题模型来生成更具体的标题，并且在解码过程中应用语言模型指导，从而在参考自由和参考依据的标题度量指标之间取得一定的平衡。

Jul, 2023

对大型语言模型的 “隐式” 检索鲁棒性的评估

通过评估各种大规模语言模型的 “隐式” 检索鲁棒性，我们发现混合了黄金和干扰性上下文进行微调显著提高了模型对检索不准确性的鲁棒性，同时仍然保持着在检索准确时提取正确答案的能力，这表明大规模语言模型可以通过仅从最终答案的监督中学习来隐式处理相关或无关的检索上下文，并且引入显式相关性判断的额外过程可能是不必要的并且会打断端到端的方法。

Jun, 2024

理解检索增强的视觉语言模型的任务适应性

采用对比式视觉 - 语言模型，通过检索增强的适应性实现了卓越的性能，在了解检索对视觉 - 语言模型适应性的影响方面展示了新的见解，并强调了对有效适应至关重要的对数集成的关键作用。

May, 2024