CVPRApr, 2022
VISTA: 基于 Vision Transformer、U-Net 和图像色度滤波的自动零售结账系统
VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame Filtration for Automatic Retail Checkout
Md. Istiak Hossain Shihab, Nazia Tasnim, Hasib Zunair, Labiba Kanij Rupty, Nabeel Mohammed
TL;DR针对自动零售结账场景中存在的物品重叠、物品外观相似等问题,本文提出了一种基于多分类的物品计数和识别方法,采用 ViT 进行分类,采用图像分割和熵掩蔽解决域偏差问题,并使用多种图像处理方法找到目标对象的帧,最终在 AI 城市挑战赛 2022 第四赛道中获得了第三名。