通过放大变换器提升高分辨率图像分类

Sep, 2023

通过放大变换器提升高分辨率图像分类

Boosting High Resolution Image Classification with Scaling-up Transformers

Yi Wang

TL;DR通过数据分析、选择强基线模型、迁移学习、数据增强和测试时间增强等综合方法，我们在 ICCV/CVPPA2023 深度养分缺乏挑战赛中获得第二名，以高分辨率图像分类为主要研究内容。

Abstract

We present a holistic approach for high resolution image classification that won second place in the ICCV/CVPPA2023 deep nutrient deficiency challenge. The approach consists of a full pipeline of: 1)

high resolution image classification deep nutrient deficiency challenge data distribution analysis transfer learning test-time augmentation

发现论文，激发创造

Swin Transformer V2：扩大容量和分辨率

本文旨在探索大规模计算机视觉模型，并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题，成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型，在多项计算机视觉任务上取得了最佳性能表现，且训练效率远高于谷歌的类似模型。

Nov, 2021

基于深度卷积神经网络的图像分类的一些改进

通过给训练数据增加更多的图像变换、给测试时产生更多的预测和使用应用于更高分辨率图像的补充模型等多种技术，我们改进了目前基于深度卷积神经网络的图像分类流程，并在 Imagenet 大规模视觉识别挑战赛 2013 中获得了前五名，我们的系统分类错误率为 13.55％，相对于上一年的获胜者，出现了超过 20％的相对提高。

Dec, 2013

深度图像：图像识别的扩展

采用端到端深度学习的方法开发了一种最先进的图像识别系统 ——Deep Image，其关键组成部分包括针对深度学习的定制超级计算机、高度优化的并行算法、使用新的数据分区和通信策略、更大的深度神经网络模型、新颖的数据增强方法以及使用多尺度高分辨率图像。我们的方法在多个具有挑战性的计算机视觉基准测试中取得了优异的结果。

Jan, 2015

用于像素级识别结构组件和损伤的高分辨率视觉变压器

在本研究中，我们基于视觉变换器和拉普拉斯金字塔缩放网络开发了一个语义分割网络，用于高效解析高分辨率的视觉检测图像。通过在桥梁检测报告图像数据集上进行全面的实验评估，我们的提出的框架在像素级材料检测方面具有广泛的应用价值。

Aug, 2023

解决训练和测试分辨率不一致的问题

本文研究了如何通过使用低分辨率图像进行数据增广和微调来提高神经网络在图像分类中的性能，特别是在训练和测试分辨率不同时。通过实验证明，这种方法可以提高分类器的准确率，在 ImageNet 数据集上的单张图片分类准确率达到 86.4%（top-5:98.0%）。

Jun, 2019

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

图像 Transformer 的深入研究

本文研究了基于 Transformer 的图片分类模型的优化，通过两个 Transformer 模型的改进，使得模型深度增加能够带来更好的性能表现，并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率，创造了当前最高成绩。同时，我们还通过重新评估标签，打破了 Imagenet-V2 数据集的最高准确率记录，并开放了源代码和训练好的模型。

Mar, 2021

使用视觉 Transformer 进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

VIPriors 图像分类挑战赛技术报告

本文简要介绍我们参加 VIPriors 图像分类挑战的提交报告。我们使用多个强大的网络和多个损失函数来学习更有代表性的特征。为了提高模型的泛化和鲁棒性，我们还使用了高效的图像增强策略，如 autoaugment 和 cutmix。最终，我们使用集成学习来提高模型性能，我们的团队 DeepBlueAI 在排行榜上排名第二，Top-1 准确率为 0.7015。

Jul, 2020

使用数据增强、Focal Cosine Loss 和集合方法进行图像分类的高效深度学习方法

为提高深度学习模型的性能和泛化能力，本论文提出了数据、损失函数和预测等三个方面的技术，以有效地利用小数据集进行训练。通过利用仅包含每类 50 张图像的 ImageNet 数据，我们取得了高准确率，并在 “数据有效计算机视觉挑战” 中排名第四。

Jul, 2020