探索利用检索增强的伪造句子生成进行无注释图像字幕生成

Jul, 2023

探索利用检索增强的伪造句子生成进行无注释图像字幕生成

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation

Zhiyuan Li, Dongnan Liu, Heng Wang, Chaoyi Zhang, Weidong Cai

TL;DR提出了一种新的策略 “基于 LPM 和检索增强学习” 来训练图像说明器，该策略利用大型预训练模型（LPM）的先验知识作为监督，并通过检索过程来进一步增强其有效性，在不使用昂贵的预训练过程的情况下，超越了目前最先进的预训练模型，并通过使用生成的伪句子作为弱监督来提高 1％半监督图像说明基准的性能。

Abstract

Training an image captioner without annotated image-sentence pairs has gained traction in recent years. Previous approaches can be categorized into two strategies: crawling sentences from mismatching corpora and aligning them with the given images as →

image captioner pseudo annotations pre-training retrieval-augmented learning lpms

发现论文，激发创造

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

通过合成对的方法改善文本式图像描述的跨模态对齐

本研究提出了一种新方法，通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像，并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征，同时利用图像中的显著对象来增强模态对齐的学习。实验证明，该方法在基准数据集上取得了最先进的性能。

Dec, 2023

通过场景图对齐进行非配对图片描述

本研究提出了一种基于场景图的方法来进行非配对图像描述，用于生成不需要图像 - 文字配对的结果，显著超过现有方法的表现。

Mar, 2019

无监督图像字幕生成

本研究说明无监督学习是可行的图像字幕生成方式，通过利用具有视觉概念检测器的图像集和句子语料库进行训练，生成的字幕能够与图像的语义内容一致且无需图片字幕标注。

Nov, 2018

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

无监督图像字幕生成中，消除图像与伪字幕之间的单词级误对齐

本文主要探讨了通过提出一个简单的门控机制来从伪字幕中选择可靠的单词以提高图像字幕生成任务的准确性，并证明了在单词级别详细对齐方面的慎重对齐的重要性。

Apr, 2021

无需对齐视频和文本数据的可伸缩精准的自监督多模态表征学习

本文介绍了利用图像字幕预训练高质量视频模型的方法，并证明了以图像字幕代替自动语音识别字幕的预训练方法更有效，使用图像和视频一起进行预训练比单独使用一种模式的预训练能显著提高网络性能，并且这种方法可以与现有的预训练或数据挖掘方法相辅相成。

Apr, 2023

利用对齐的视频字幕增强的视频富文本检索生成

我们提出使用 “对齐视觉标题” 作为一种机制，将视频中的信息整合到基于检索增强生成的聊天助手系统中，这些标题能够以文本形式描述视频的视觉和音频内容，并且易于理解和加入到大型语言模型的提示中，同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中，我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。

May, 2024

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022