基于区域注意力和精细化的轻量级人像抠图

Nov, 2023

基于区域注意力和精细化的轻量级人像抠图

Lightweight Portrait Matting via Regional Attention and Refinement

Yatao Zhong, Ilya Zharkov

TL;DR我们提出了一个高分辨率人像抠图的轻量级模型，无需使用任何辅助输入，并能在高清视频中实时进行处理。我们的模型采用了两阶段的框架，其中低分辨率网络用于粗糙的透明度估计，后续的细化网络用于改善局部区域。通过利用 Vision Transformer（ViT）作为低分辨率网络的主干，在遵循像素信息的同时，能够通过 ViT 的分词步骤降低空间分辨率。为了传播局部上下文信息，我们在细化网络中提出了一种新颖的跨区域注意力（CRA）模块。我们的方法在三个基准数据集上取得了优越结果，并且相比现有最先进模型的 $1/20$ 的 FLOPS，仍能表现出色。

Abstract

We present a lightweight model for high resolution portrait matting. The model does not use any auxiliary inputs such as trimaps or backgr

portrait matting lightweight model high resolution real time performance vision transformer

发现论文，激发创造

高效自然图像抠图

本研究提出了一种基于卷积神经网络的轻量级无裁剪自然图像抠图方法，通过构建分割网络和抠图精炼网络实现像素分类和细节信息提取，该方法具有可比较的性能但只使用大型模型约 1% 的参数 (344k)。

Oct, 2021

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

ViTMatte：利用预训练普通视觉 Transformer 提升图像抠图

该研究利用目前最先进的 ViT 深度学习模型，结合基于关注机制和卷积神经网络技术的细节捕获模块，成功地提出了用于图像抠图的 ViTMatte 系统。该系统在多项任务中创造了最佳性能，比过往方法具有更高的鲁棒性和更具吸引力的效率特征。

May, 2023

移动电话上人像动画快速深度抠图

本文提出了一种基于深度学习的、适用于移动设备上实时进行图像抠图的方法，包括使用二元掩膜和边缘保留技术来实现精确抠取肖像图像。实验结果表明，该算法在跟踪最新的抠图算法的同时，实现了 15 帧每秒的实时性能。

Jul, 2017

单输入生成人像抠图 Alpha Matte

本论文提出了一种无需提供附加输入的方法进行人物抠图，将任务分为分割和 alpha matte 预测两个子任务，利用图像和分割图来预测 alpha matte，并通过引入分割编码块来避免分割信息的消失。该方法在四个基准数据集上表现优异，且结果可与需要附加输入的方法相媲美。

Jun, 2021

实时高分辨率背景抠像

本文提出了一种实时高分辨率的背景替换技术，基于背景抠图并使用两个神经网络来计算高质量的 alpha matte，在处理高分辨率图像时保留了头发细节，并引入了两个大规模的数据集，能够同时提高速度和分辨率。

Dec, 2020

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

带有时间指导的稳健高分辨率视频抠像

提出了一种实时、高分辨率、具有鲁棒性的人体视频抠像方法，该方法采用循环神经网络架构来利用视频的时间信息，提高了时间相干性和抠像质量，并采用了训练策略来增强网络的鲁棒性，不需要任何辅助输入，可广泛应用于现有人体抠像应用。

Aug, 2021

视觉 Transformer 中的区域与稀疏注意力融合

本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT)，运用区域关注和稀疏关注相结合的方式，动态地集成了局部和全局信息，同时保留了分层结构，并在常见的视觉任务中表现出色。

Jun, 2024

基于注意力引导的时间连续视频对象抠图

该论文提出了一种基于深度学习的新型视频对象抠图方法，能够实现时间上连贯的抠图效果，并使用注意力机制的时间聚合模块在特征空间中计算相邻像素沿时间轴的时序相关性，同时利用带有稀疏用户注释关键帧的先进视频对象分割网络进行细调以解决抠图问题。实验结果表明，该方法能够生成适用于各种视频的高质量阿尔法抠图。

May, 2021