Dec, 2023

利用扩散模型和元提示进行视觉感知

TL;DR通过引入可学习的嵌入(元提示)来利用扩散模型解决视觉感知任务,我们的方法在深度估计和语义分割任务上取得了新的性能记录,并在 ADE20K 的语义分割和 COCO 数据集的姿态估计等方面达到了与最先进方法相媲美的结果,展示了其稳健性和多功能性。