低光图像增强的扰动学习
本文提出了一种基于因果干预的依赖多任务学习框架(DMTCI)来解决图像描述生成过程中出现的问题,该框架采用包含类别生成、因果计算和多智能体强化学习策略来提高模型对视觉特征的理解和生成句子的一致性及信息性。实验结果表明,DMTCI 模型优于基准模型,并达到了与最先进模型相媲美的性能。
May, 2021
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
研究论文简介:本文研究了大型语言模型在图像分类方面的应用,通过对多模态语言模型进行轻微微调,使用对比式图像 - 标题匹配目标,取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能,同时保留了语言模型的生成能力。
Dec, 2023
本文提出了一种在测试过程中仅聚合本地空间区域特征而非整张大图像的简单方法,名为 Test-time Local Converter(TLC)。该方法可提高图像恢复任务的性能,并且无需费力微调全局模块,例如归一化,通道和空间注意力等。
Dec, 2021
本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架,通过交叉模式对齐和内部模态自我监督来提高学习的代表性,并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息,取得了在图像 - 文本检索和视觉问答等任务中的优异表现。
Feb, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
通过数据驱动的前景显著性估计和复制粘贴来生成图像视图,实现对背景不变性的学习,从而训练代表性忽略背景内容并专注于前景的对比学习模型,并实现了在 ImageNet 分类和 PASCAL VOC、MSCOCO 目标检测上的显著性能提升。
Apr, 2020
基于对特定变换的区分,我们提出了一种自监督特征学习的新原则,指出所学特征的泛化能力取决于较大的图像邻域大小和其能够描述的更全局的图像统计信息,这可以 better represent objects' shape and configuration 以及它们的上下文,最终将泛化到新任务,如对象分类和检测。根据这个标准,我们引入了一种新的图像变换,称为 limited context inpainting (LCI),它仅在小矩形像素边界(有限的上下文)的条件下填充图像,而由于边界信息有限,因此涂鸦者可以学习匹配局部像素统计信息,但不太可能匹配图像的全局统计信息。我们声称可以使用同样的原则来验证变换性能,例如图像旋转和扭曲, 确实,我们实验表明,学习区分 LCI、图像扭曲和旋转等变换,产生了状态良好的泛化功能,可应用于多个数据集,如 Pascal VOC、STL-10、CelebA 和 ImageNet。值得注意的是,我们训练的特征在 Places 数据集上的表现与通过带 ImageNet 标签的监督学习训练的特征相当。
Apr, 2020
用训练图像字幕模型的教师强迫方法生成的样本非常通用,而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略,其中利用了不同方式的真实字幕,从而在保持高写作质量的同时生成高度独特的字幕。
Feb, 2024
通过应用灰度共生矩阵来提取深度神经网络中的表面统计信息,以改善其在未知领域中的分类精度表现,并通过逆梯度方法和依靠灰度共生矩阵的正交子空间来进一步提升性能。
Mar, 2019