- 分析多模态大型语言模型的视觉感知
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的 - 图像嵌入用于去噪生成模型
本文探讨了如何在 Denoising Diffusion Models 的 latent space 中嵌入图像,实现对噪声图像的去噪,并发现了该类生成模型中 latent representation 独立于反扩散过程网络实现的网络结构。
- CVPR文本生成图像的移位扩散
Corgi 是一种新的文本图像生成方法,基于改进的扩散模型,可以有效地将输入文本转化为图像嵌入向量,与 DALL-E 2 相比,Corgi 在效率和效果上均表现更好,同时还支持半监督无语言训练。
- 改进版 StyleGAN 嵌入:好的潜空间在哪里?
本研究提出了一种基于 StyleGAN 的图像嵌入算法,通过引入新的标准化空间来分析重建潜码的多样性和质量,使用基于分析结果的正则化方法来提高嵌入算法的性能,实现了重建质量与编辑质量的更好平衡。
- 自拍:自监督图像嵌入预训练
本文介绍了一种名为 Selfie 的预训练技术,其可以通过对图像进行掩蔽语言建模来进行图像嵌入,并且可以很好地适用于低数据情况下的 ResNet-50 图像分类器的训练。
- ICCVImage2StyleGAN:如何将图像嵌入到 StyleGAN 的潜空间中?
我们提出了一种高效的图像嵌入算法,通过将图像嵌入 StyleGAN 的潜在空间,实现了可以应用于现有照片的语义图像编辑操作,从而得出了关于探究 StyleGAN 潜在空间结构的有价值洞见,并提出一系列实验来测试嵌入哪些图像类别、如何嵌入、哪 - 自监督学习图像嵌入以进行连续控制
本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。
- 深度相似网络的可视化
本文介绍了一种针对卷积神经网络模型中图像嵌入优化的方法,用于突出显示贡献最大的图像区域,可用于相似性学习领域的问题。我们还将该方法推广至使用不同池化策略的嵌入网络,并提供了一种支持查询图像中物体或子区域的图像相似性搜索的简单机制。
- ECCV为时装兼容性学习类型感知嵌入
该论文提出了一种学习图像嵌入的方法,以尊重物品类型,并联合学习物品的相似性和兼容性。通过在 Polyvore 网站上爬取用户创建的 68,306 个配装数据集,该方法在配装兼容预测和填空任务中取得了 3-5%的改进,支持各种有用的查询。
- 通过语义嵌入的凸组合实现零样本学习
本文介绍了一种简单的图像嵌入系统构建方法,可以从现有的任何 n-way 图像分类器和语义词嵌入模型中构建,该方法通过使用类标签嵌入向量的凸组合将图像映射到语义嵌入空间中,不需要进行额外的训练,该方法在 ImageNet 零样本学习任务上表现