- EMNLP使用注入噪声的 CLIP 进行图像字幕的文本训练
本文提出一种使用 CLIP 模型和文本数据进行图像字幕生成的方法,只需学习如何将文本嵌入转化为文本,故只需学习一个将固定的嵌入解码的解码器,通过噪声注入进行训练,实现了 SOTA 零样本图像字幕生成。
- CLIP 模型是高效的继续学习器
本文发现,CLIP(Contrastive Language-Image Pretraining)模型在冻结状态下,在不进行任何微调(零次评估)的情况下提供惊人的持续学习表现。作者在多种设置(包括类增量、域增量和任务不可知的增量学习)和五个 - MM多模态引导扩散:多样的数字艺术合成
本研究提出了一种多模态引导的数字艺术生成方法,即 MGAD 模型,该方法利用多模态提示作为引导,控制无分类器扩散模型,并使用对比语言 - 图像预训练 (CLIP) 模型统一文本和图像模态进行生成,实验结果表明,此方法在产生数字艺术方面有效。
- Text2Light: 零样本文本驱动 HDR 全景生成
本文中提出了一种零样本文本驱动框架 (Text2Light),它使用自然语言对场景进行描述,并生成适用于复杂场景的 4K + 分辨率 HDR 全景图,其中使用了双重代码本来生成各种环境纹理的离散表示,并由经过预训练的 CLIP 模型驱动的全 - 打通目标与图像级别表示以实现开放词汇检测
本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数 - LaTeRF: 标签和文本驱动的物体辐射场
本研究提出了 LaTeRF 方法,通过引入 “对象性” 概率,扩展 NeRF 公式,结合自然语言描述、点标签等信息从场景中提取出感兴趣的物体,并结合预训练的 CLIP 模型和可微分对象渲染器来修复物体的遮挡部分。实验结果表明该方法在合成和真 - 带类别条件对比学习的传递式 CLIP
提出一种新的从头开始学习带有嘈杂标签的分类网络的框架:Transductive CLIP,包含条件对比学习机制和集成标签策略,能够有效地减少 CLIP 模型嘈杂标签的影响,实验结果表明其在多个基准数据集上显著优于其他最先进的方法。
- MM视频检索中的否定理解学习
本研究使用现有数据集 (VATEX, MSR-VTT) 重新构建评估协议,提出了一种基于学习的方法来训练具有否定意义的视频检索模型,该方法通过部分否定原标题来为特定训练视频构建软负标题,然后计算三元组的双向约束损失,将这个辅助损失加权到标准 - ECCVECLIPSE: 利用视听进行高效长距离视频检索
我们引入了一种音视频结合的文本到视频检索方法,称为 ECLIPSE,该方法通过将动态音频事件与视频的补充提示统一编码来适应长范围视频,提高了检索准确性降低了计算成本。
- Text2LIVE: 文本驱动的分层图像和视频编辑
本文介绍了一种用于零样本、文本驱动外观操作的方法,利用内部数据集训练生成器,结合外部的 CLIP 模型进行损失计算,并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。
- MotionCLIP: 将人体动作生成暴露到 CLIP 空间
MotionCLIP 是一种 3D 人体运动自编码器,在 latent space 中对接 CLIP 模型,以获得无与伦比的文本到运动的能力,实现了跨域动作,编辑和抽象语言规范等功能。
- 文本和图像帮助下的 3D 头像创造与操作
该论文介绍了一种基于文本或图像的提示(如 “年轻的脸” 或 “惊讶的脸”)来操纵三维生成模型中形态和纹理的方法,利用了对比语言图像预训练模型(CLIP)和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。
- ICLR基于语义表示的语言偏差图像分类评估
通过引入基于认知科学文献的方法工具,本研究介绍了一项基准测试来评估人工模型的偏差,并使用这个基准测试评估了 CLIP 模型。我们发现,虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类,但这种影响不依赖于图像和嵌入单词之间的 - CVPR使用文本和图像提示进行图像分割
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现 - CVPRLAFITE:面向文本图像生成的语言无关训练
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练 - ClipCap: 图像字幕的 CLIP 前缀
本文使用 CLIP 编码作为前缀,利用简单的映射网络,然后微调语言模型以生成图像标题,无需额外的注释或预训练,有效地为大规模和多样化的数据集生成有意义的标题。同时,我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比 - StyleGAN-NADA:基于 CLIP 引导的图像生成器域自适应
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练 - AudioCLIP: 将 CLIP 扩展到图像、文本和音频
本研究提出了一个扩展 CLIP 模型,使用 AudioSet 数据集来支持音频的双模和单模分类以及查询,同时保持了 CLIP 模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果,并评估了提出模型的跨模态查询表现以及全量和部分