Mar, 2023

从演示视频到目标图像的可支配性 grounding

TL;DR本文提出了基于Transformer的Affordance Transformer以及自我监督的预训练技术Mask Affordance Hand,用于视频到图像的Affordance Grounding任务,提高了视频图像之间的一致性,实现了多项基准测试中最先进的性能。