CVPRApr, 2022

VISTA: 基于 Vision Transformer、U-Net 和图像色度滤波的自动零售结账系统

TL;DR针对自动零售结账场景中存在的物品重叠、物品外观相似等问题,本文提出了一种基于多分类的物品计数和识别方法,采用 ViT 进行分类,采用图像分割和熵掩蔽解决域偏差问题,并使用多种图像处理方法找到目标对象的帧,最终在 AI 城市挑战赛 2022 第四赛道中获得了第三名。