- 少即是多:去除文本区域提高 CLIP 训练效率和鲁棒性
本文介绍两种有效方法来提高 CLIP 模型的效率和鲁棒性:(1)在维持相同优化步数的情况下增加训练数据集,(2)过滤包含图像中文本区域的样本,从而在像 ImageNet 和 CoCo 公共基准测试中显著提高分类和检索精度。过滤掉包含文本区域 - HyperStyle3D: 通过超网络进行文本引导的 3D 人像风格化
本文提出了一种基于 3D-aware GANs 的 HyperStyle3D 方法,利用 CLIP 模型作为样式指导,可以在不要求 3D 数据的情况下进行立体画风化处理,实验结果表明该方法在不同的画风、形状变形、属性修改等方面展现了优异表现 - SemEval2023 任务 1 中的 OPI: 面向视觉词义消歧的图像 - 文本嵌入和多模态信息检索
本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧,并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。
- CVPRCLIP 引导的视觉 - 语言预训练用于 3D 场景问答
本文介绍了一种新颖的 3D 预训练视觉 - 语言方法,将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解,使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力,并在 3D 视觉问答下游任务中证明了该方 - ICLRUnicom: 用于图像检索的通用紧凑表示学习
本文研究了图像检索方法中预训练模型的应用,提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法,采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性,最终在多个基准测试中取得了超过现有方法的性能表现。
- CVPR无监督文本到图像生成的变分分布学习
本文提出了一种基于深度神经网络的文本到图像生成算法,使用预训练的 CLIP 模型和变分推断的方式,优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。
- 对比学习是基于相似度图的谱聚类
本文研究了对比学习的等价性和理论基础,并建立了对比学习与谱聚类算法之间的等价性。同时,我们探讨了多模态对象是如何相似地嵌入在一起的,并提出了一种新的核混合损失,相较标准高斯核在几个视觉数据集上有更好的表现。
- 语言图像预训练的 Sigmoid Loss
本文提出了针对图像 - 文本预训练的简单对数损失函数,其中使用 sigmoid 函数,从而可以放大批量大小,并实现更好的性能表现。
- CVPRWinCLIP:零 / 少样本异常分类和分割
该论文提出了一种基于窗口的视觉 - 语言模型 (WinCLIP),它可以实现零样本和少样本学习用于异常分类和分割任务,该模型在 MVTec-AD (and VisA) 数据集上超越了现有技术水平。
- CVPR正向增量对比学习在图像和视频字幕评估中的应用
提出了基于对比学习的图像标注评估指标 PAC-S,使用生成的图像和文本进一步统一了对比视觉 - 语义空间的学习,实验中表现最好,超过了 CIDEr、SPICE 和 CLIP-Score 等其他指标。
- Paparazzi:深入探究语言和视觉模型在观点描述中的能力
本论文研究了 CLIP 模型在 3D 环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。
- GALIP: 文本到图像生成的生成对抗 CLIPs
使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器,我们提出 Generative Adversarial CLIPs(GALIP),以实现高质量、高效、快速且可控的文本到图像合成,同时减少训练数据和可学习参数。
- 重新审视基于 CLIP 的图像到视频知识传递的时间建模
本论文基于 CLIP 模型,提出了一种名为 STAN 的时空建模机制,用于将图像 - 文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。
- FICE: 带引导 GAN 反演的文本调制时尚图像编辑
本论文提出了一种新的文本引导时尚图片编辑方法 FICE,包括 GAN 反演、CLIP 模型语义信息和姿态、图片评估等多项约束,使其能够更好地控制图像合成的逼真程度,并与多种先进方法进行对比验证,结果表明 FICE 具有更强的编辑表现和高度逼 - 在像素级别释放视觉提示的威力
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
- AAAI面向边缘设备的高效图像字幕生成
提出了一种基于 CLIP 模型的轻量级图像字幕生成器 LightCap,可以在资源有限的设备上使用,仅包含 40M 参数,比现有技术方法的模型大小减少了超过 75%,与仅使用单个 CPU 的手机的推理速度为 188ms 每张图像,并在著名数 - AAAIVASR: 情境识别的视觉类比
介绍了一项新颖的任务:视觉情境类比识别,通过 CLIP 模型生成了 50 万个类比数据集,并创建了一个 3820 个样本验证集,实验结果表明目前最先进的模型效果在随机干扰下良好,但在精心选择干扰时效果大打折扣,希望我们的数据集能鼓励新的类比 - CVPR优化过的 CLIP 模型是高效的视频学习器
论文提出了一种用于显式建模时间序列的新型模块,通过视频精调 CLIP 模型,可以将图像级别的表示有效地转移到视频领域,取得了良好的实验效果。
- CVPR文本生成图像的移位扩散
Corgi 是一种新的文本图像生成方法,基于改进的扩散模型,可以有效地将输入文本转化为图像嵌入向量,与 DALL-E 2 相比,Corgi 在效率和效果上均表现更好,同时还支持半监督无语言训练。
- 检索增强的多模态语言建模
提出了一种 “检索增强的多模态模型”,结合了预检索检索任务和预训练的模型,在图像生成和描述生成任务上实现了比以前模型更好的表现,同时大大降低了训练成本。