Viewmaker Networks:学习无监督表征学习的视角
自监督学习通过从无标签数据中获取高质量的表示已经取得了显著的成功。GenView 是一个可控的框架,通过增加积极视角的多样性利用预训练生成模型的能力,同时保留语义。研究中引入了自适应视角生成方法来调整采样噪声水平,以确保保留基本语义意义并引入变异性。此外,引入了质量驱动的对比损失,通过考虑前景相似性和背景多样性评估正样本对的质量。GenView 明显改善了各种任务中的自监督学习性能,例如,在 ImageNet 线性 / 半监督分类上,GenView 将 MoCov2 的性能提高了 2.5%/2.2%。此外,与简单地使用 Laion400M 或 ImageNet21K 扩充 ImageNet 数据集相比,GenView 的性能更好。
Mar, 2024
提出了一种基于无监督多视图生成模型的条件变体,可在高维空间中生成各种物体的逼真样本,相比于其他条件生成方法,我们不会对变差因素做任何假设,不需要视图的监督。
Nov, 2017
使用预训练生成器,通过对潜在代码进行扰动以创建自然图像的变化,然后使用 StyleGAN2 进行分类任务,并发现该过程存在多个设计决策,包括扰动程序、增强图像和原始图像之间的加权以及对合成图像进行训练的分类器等,最终发现,虽然使用基于 GAN 的增强可以带来小幅改进,但 GAN 重构的效率和精度,以及分类器对 GAN 生成图像的敏感性仍然是瓶颈。
Apr, 2021
本论文介绍了一种无监督学习方法,将三维形状信息嵌入到单视图图像表示中,通过使用单个 2D 图像的自监督训练目标,在没有人工语义标签的前提下,鼓励表示捕捉基本形状原语和语义规律,最终学习得到一个强大的表示方法,可以成功进行物体识别和 “心理旋转” 操作,成果优于相对应的其他无监督学习方法。
Sep, 2017
本研究旨在回答一个问题,即能否利用来自互联网的未标记对象类别的大量图像,通过自监督实现纯粹通过训练视角估计网络。 在这里,我们提出了一种新颖的学习框架,其中包括一种通过合成分析范例结合生成网络进行视点感知重构图像的方法,以及对称性和对抗约束,以成功监督视点估计网络。通过实现我们的方法,我们表明在如人脸、汽车、公共汽车和火车等几个对象类别上,我们的方法表现出具有竞争力的完全监督方法,为进一步的自监督视角学习和研究提供了一个强健的基线。
Apr, 2020
本文提出了一个自监督学习的方法,通过深度引导的调整过程,利用变换自编码器的网络结构,在只有 2D 图像和相关视角变换的情况下精确合成高质量的 3D 对象或场景的新视角,并实现了细粒度和精密的六自由度视角控制。通过在合成和真实场景以及精细和固定视角设置下的彻底评估,证明了该方法的广泛适用性。
Jan, 2019
本文提出了一种新的方法,可以从自由分布在场景周围的输入图像中合成新视角的图像,不依赖于输入视角的规则排列,可以为场景中的自由相机运动合成图像,并适用于具有任意几何布局的通用场景,该方法通过 SfM 对输入图像进行校准并通过 MVS 建立一个粗略的几何支架,然后基于透视图创建一个代理深度图,进而利用循环编解码网络处理从附近视角重新投影的特征,并合成新视角。该网络不需要针对特定场景进行优化,通过数据集训练后,可以在之前看不到的环境中工作,本文的方法在 Tanks and Temples 等具有挑战性的现实世界数据集上进行了评估和实验证明,表现出色,大大优于之前和同时进行的工作。
Aug, 2020
本论文主要探讨基于学习的单个或有限 2D 图像的新视角合成,提出了一个端到端可训练的条件变分框架,通过空间相关模块从外观描述图像中提取全局的 3D 表示形状、纹理和以观察者为中心的坐标系原点等,实现无需显式 3D 重建即可隐含 3D 理解。
Jul, 2020