ImageNet-21K 大规模预训练
本文探讨了利用大规模社交媒体图像预测 hashtag 的卷积神经网络进行的迁移学习的行为,并展示了相应的实验结果,证明进行大规模预训练能够显著提高图片分类和物体检测任务的表现。
May, 2018
使用随机初始化的标准模型,在 COCO 数据集上进行的目标检测和实例分割,结果不劣于它们的 ImageNet 预训练模型,证明预训练模型并不一定能提高模型最终的准确性。
Nov, 2018
本研究探讨了只利用目标任务数据的自监督预训练方法,结果显示与 ImageNet 预训练相比,使用我们介绍的变种 BEiT 的降噪自编码器方法更适合于类型和数据大小各不相同的预训练数据,这种方法在使用 COCO 数据进行预训练时,检测和实例分割性能超过了监督的 ImageNet 预训练方法。
Dec, 2021
通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程,我们引入了 Conceptual 12M(CC12M)数据集,并通过针对长尾视觉识别的多个下游任务基准测试其有效性,结果表明增加预训练数据规模会使视觉和语言任务更加有效。
Feb, 2021
本篇文章提出了一种新的、基于分形图像的优化预训练数据集的方法,该数据集可以在零成本的情况下实现完美的分类准确性,无需存储 / 传输巨大的图像存档,没有隐私 / 族群偏见 / 不当内容的担忧,并且图像有无限的供应和多样性。实验结果表明,利用这种新的预训练任务和基于分形的预训练方法 Fine-tune 网络可以达到 92.7-98.1% 的 ImageNet 预训练网络的准确性。
Oct, 2021
本文利用人为标注的数据集 ImageNetVC,探究了先前被作为通用接口使用的 预训练语言模型(PLMs)和其带视觉增强的对应模型(VaLMs)的视觉常识知识掌握情况及其影响因素。同时,通过研究大规模模型的因素,提供了对视觉常识知识丰富的自然语言模型发展的启示。
May, 2023
用深度卷积神经网络所学习的表达来实现视频事件检测,并探究如何利用完整的 ImageNet 层次结构进行深度网络的预训练,其中引入一种基于 ImageNet 全部 21,814 个类别和超过 14 百万图像的自下而上和自上而下的方法以解决过于特定类别和类别图像数量不足的问题,并通过对 TRECVID Multimedia Event Detection 2013 和 2015 数据集的实验验证,得到了超过标准预训练和融合其他模态的结果,取得了最先进的事件检测结果。
Feb, 2016
在计算机视觉中,自我训练是一种使用额外数据的替代方法,与常用的预训练模型初始化方法相比具有更强的通用性和灵活性,并提供了新的见解,包括:1)更强的数据增强和更多标记数据会进一步降低预训练的价值,2)自我训练在低数据和高数据环境下使用更强的数据增强时都有帮助,3)在预训练有效的情况下,自我训练能够进一步提高对象检测的准确性。
Jun, 2020
在机器学习领域,使用大数据集对神经网络进行预训练已成为众多社群才能实现的基石之一,本文旨在实现预训练的民主化,并训练并发布出一种能够预测其他神经网络高质量 ImageNet 参数的单一神经网络,通过使用预测参数作为初始化,我们能够提高在 PyTorch 可用的不同 ImageNet 模型的训练效果.
Mar, 2023