Nov, 2023

基于区域注意力和精细化的轻量级人像抠图

TL;DR我们提出了一个高分辨率人像抠图的轻量级模型,无需使用任何辅助输入,并能在高清视频中实时进行处理。我们的模型采用了两阶段的框架,其中低分辨率网络用于粗糙的透明度估计,后续的细化网络用于改善局部区域。通过利用 Vision Transformer(ViT)作为低分辨率网络的主干,在遵循像素信息的同时,能够通过 ViT 的分词步骤降低空间分辨率。为了传播局部上下文信息,我们在细化网络中提出了一种新颖的跨区域注意力(CRA)模块。我们的方法在三个基准数据集上取得了优越结果,并且相比现有最先进模型的 $1/20$ 的 FLOPS,仍能表现出色。