通过放大变换器提升高分辨率图像分类
本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。
Nov, 2021
通过给训练数据增加更多的图像变换、给测试时产生更多的预测和使用应用于更高分辨率图像的补充模型等多种技术,我们改进了目前基于深度卷积神经网络的图像分类流程,并在 Imagenet 大规模视觉识别挑战赛 2013 中获得了前五名,我们的系统分类错误率为 13.55%,相对于上一年的获胜者,出现了超过 20%的相对提高。
Dec, 2013
采用端到端深度学习的方法开发了一种最先进的图像识别系统 ——Deep Image,其关键组成部分包括针对深度学习的定制超级计算机、高度优化的并行算法、使用新的数据分区和通信策略、更大的深度神经网络模型、新颖的数据增强方法以及使用多尺度高分辨率图像。我们的方法在多个具有挑战性的计算机视觉基准测试中取得了优异的结果。
Jan, 2015
在本研究中,我们基于视觉变换器和拉普拉斯金字塔缩放网络开发了一个语义分割网络,用于高效解析高分辨率的视觉检测图像。通过在桥梁检测报告图像数据集上进行全面的实验评估,我们的提出的框架在像素级材料检测方面具有广泛的应用价值。
Aug, 2023
本文研究了如何通过使用低分辨率图像进行数据增广和微调来提高神经网络在图像分类中的性能,特别是在训练和测试分辨率不同时。通过实验证明,这种方法可以提高分类器的准确率,在 ImageNet 数据集上的单张图片分类准确率达到 86.4%(top-5:98.0%)。
Jun, 2019
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
本文研究了基于 Transformer 的图片分类模型的优化,通过两个 Transformer 模型的改进,使得模型深度增加能够带来更好的性能表现,并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率,创造了当前最高成绩。同时,我们还通过重新评估标签,打破了 Imagenet-V2 数据集的最高准确率记录,并开放了源代码和训练好的模型。
Mar, 2021
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文简要介绍我们参加 VIPriors 图像分类挑战的提交报告。我们使用多个强大的网络和多个损失函数来学习更有代表性的特征。为了提高模型的泛化和鲁棒性,我们还使用了高效的图像增强策略,如 autoaugment 和 cutmix。最终,我们使用集成学习来提高模型性能,我们的团队 DeepBlueAI 在排行榜上排名第二,Top-1 准确率为 0.7015。
Jul, 2020
为提高深度学习模型的性能和泛化能力,本论文提出了数据、损失函数和预测等三个方面的技术,以有效地利用小数据集进行训练。通过利用仅包含每类 50 张图像的 ImageNet 数据,我们取得了高准确率,并在 “数据有效计算机视觉挑战” 中排名第四。
Jul, 2020