VISTA: 基于 Vision Transformer、U-Net 和图像色度滤波的自动零售结账系统

CVPRApr, 2022

VISTA: 基于 Vision Transformer、U-Net 和图像色度滤波的自动零售结账系统

VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame Filtration for Automatic Retail Checkout

Md. Istiak Hossain Shihab, Nazia Tasnim, Hasib Zunair, Labiba Kanij Rupty, Nabeel Mohammed

TL;DR针对自动零售结账场景中存在的物品重叠、物品外观相似等问题，本文提出了一种基于多分类的物品计数和识别方法，采用 ViT 进行分类，采用图像分割和熵掩蔽解决域偏差问题，并使用多种图像处理方法找到目标对象的帧，最终在 AI 城市挑战赛 2022 第四赛道中获得了第三名。

Abstract

multi-class product counting and recognition identifies product items from images or videos for automated retail checkout. The task is challenging due to the real-world scenario of occlusions where product items

multi-class product counting automated retail checkout segmentation classification vision transformers

发现论文，激发创造

使用混合多模态视觉 Transformer-CNN 模型增强细粒度 3D 物体识别能力

提出了一种混合多模态视觉转换器和卷积神经网络方法以改善精细分类识别，通过生成两个合成数据集来解决 FGVC 3D 数据集不足的问题，并成功将其与机器人框架集成，展示其在模拟和实际机器人场景中作为细粒度感知工具的潜力。

Oct, 2022

一个用于密集视觉预测解决方案的香草式多任务框架 —— 第一届 VCL 挑战赛 —— 多任务鲁棒性分科

我们提出的 UniNet 框架可以将 DETR3D、Mask2Former 和 BinsFormer 无缝地结合到一个多任务模型中，实现多任务鲁棒性，并在 1st Visual Continual Learning（VCL）挑战的多任务鲁棒性领域取得了显著性能。

Feb, 2024

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023

视频视觉 Transformer 用于暴力检测

利用端到端深度学习技术和数据增强策略，提出一种暴力事件自动检测解决方案，相较于先前最好的方法，在一些具有挑战性的基准数据集中取得了良好的性能，可用于帮助执法部门及时采取行动。

Sep, 2022

Unitail: 零售场景下的检测、阅读和匹配

介绍了 United Retail 数据集（Unitail），该数据集可用于检测、阅读和匹配产品，并提供了产品检测器和基于 OCR 的匹配方案。

Apr, 2022

单一视觉变换器的图像和视频联合学习

我们提出了一种使用单一模型联合学习图像和视频的方法，该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。

Aug, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

视频分类和关键帧识别的半监督和深度学习框架

本文提出了两种半监督方法以自动化视频流中的场景分类和筛选关键帧。所提出的框架可用于增加的视频数据流，以最少的训练图像自动训练感知驱动系统。

Mar, 2022