认知弹性：揭示图像字幕模型解读屏蔽视觉内容的能力

ICLRMar, 2024

认知弹性：揭示图像字幕模型解读屏蔽视觉内容的能力

Cognitive resilience: Unraveling the proficiency of image-captioning models to interpret masked visual content

Zhicheng Du, Zhaotian Xie, Huazhang Ying, Likun Zhang, Peiwu Qin

TL;DR这项研究探讨了图像字幕（IC）模型解码来自不同数据集的掩蔽视觉内容的能力。我们的发现揭示了 IC 模型生成来自掩蔽图像的字幕的能力，这些字幕与原始内容密切相关。值得注意的是，即使在存在掩蔽的情况下，该模型仍然能够灵活地生成描述性的文本信息，超越了原始图像生成的字幕所能观察到的内容。虽然 IC 模型的解码性能随着掩蔽区域面积的增加而下降，但当图像的重要区域没有大面积掩蔽时，模型仍然表现良好。

Abstract

This study explores the ability of image captioning (IC) models to decode masked visual content sourced from diverse datasets. Our findings reveal the IC model's capability to generate captions from masked images

image captioning masked visual content decoded captions observability decoding performance

发现论文，激发创造

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023

基于神经模型的图像标题增强

本研究使用深度学习模型来探索神经图像字幕生成的领域，研究不同的神经网络架构配置，重点关注注入架构，并提出了一种新的质量度量标准来评估字幕生成。通过广泛的实验和分析，本研究揭示了图像字幕生成中的挑战和机遇，深入洞察了模型行为和过度拟合问题。结果显示，尽管合并模型具有更大的词汇量和更高的 ROUGE 分数，注入架构生成相关而简洁的图像字幕。研究还强调了优化训练数据和超参数以提高模型性能的重要性。本研究为神经图像字幕生成领域的日益增长的知识体系做出了贡献，鼓励进一步探索该领域，强调了人工智能的民主化。

Dec, 2023

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

去混淆化的图片字幕生成：一项因果回顾研究

本文提出了一种基于因果推断的新颖视角：去混淆图像标题（DIC），给出了 DICv1.0 框架，并在 MS-COCO 数据集的 Karpathy 和在线分裂上展示了 DICv1.0 的改进：两个流行的标题模型分别达到了单模型的 130.7 CIDEr-D 和 128.4 c40 CIDEr-D，为图像标题提供了有前途的方向。

Mar, 2020

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

基于 CNN 编码器 - 解码器框架的压缩图像字幕生成

我们的项目旨在通过开发结合卷积神经网络（CNN）和编码 - 解码模型的自动图像字幕架构来解决图像字幕的挑战。我们还进行了性能比较，研究了多种预训练 CNN 模型的性能变化，并探索了频率正则化技术在压缩 “AlexNet” 和 “EfficientNetB0” 模型方面的整合，旨在在更节省资源的同时保持模型的有效性。

Apr, 2024

保护、展示、关注和告知：使用所有权保护增强图像字幕模型

本研究提出了两种不同的嵌入方案，以保护图像字幕模型的知识产权，并证明所提出的方法不会影响原始图像字幕的性能

Aug, 2020

2015 MSCOCO 图像标注挑战赛的经验教训

本篇论文介绍一种基于深度递归结构的生成模型，其结合了近期在计算机视觉和机器翻译方面的进展，能够用于生成描述图像的自然语言句子，并经过多种数据集的实验，验证了模型的准确性和语言的流畅性。更重要的是，该模型是通过对图像描述的学习而得，在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩，并提供了一个基于 TensorFlow 开源的实现。

Sep, 2016