Mar, 2024

大数据训练的扩散模型具有可迁移的视觉模型

TL;DR通过使用预训练的 UNet(或transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。