YFCC100M 数据集上大规模深度学习

Feb, 2015

Large-Scale Deep Learning on the YFCC100M Dataset

Karl Ni, Roger Pearce, Kofi Boakye, Brian Van Essen, Damian Borth...

TL;DR该研究旨在通过利用 HPC 架构，对最大的公开图像和视频数据集进行深度学习，提出了一种具有 150 亿参数的三层深度神经网络的训练方案，并取得了可喜的初步结果。

Abstract

We present a work-in-progress snapshot of learning with a 15 billion parameter deep learning network on hpc architectures applied to the largest publicly available natural →

deep learning hpc architectures unsupervised neural networks image and video dataset training

发现论文，激发创造

YouTube-8M: 大规模视频分类基准

该论文介绍了一个由 4800 个可视实体组成，由 8 百万个视频（500k 小时的视频）组成的最大多标签视频分类数据集 YouTube-8M，并通过训练各种分类模型和评估它们来作为基准。

Sep, 2016

YFCC100M：多媒体研究的新数据

该研究介绍了雅虎 Flickr 创意共享千万数据集 (YFCC100M)，其包含约 1 亿个多媒体对象，其中约 99.2 万个为照片，0.8 万个为视频，所有对象均带有创意共享许可证。该数据集提供了详细的元数据信息和从 2004 年到 2014 年初的照片和视频的共享情况，对于科学、研究、工程和开发等领域具有重要意义。

Mar, 2015

从零开始学习面部表征

该研究提出了一种半自动方式从互联网收集人脸图像并构建了一个包含大约 10000 个主体和 500000 个图像的大规模数据集，命名为 CASIAWebFace，使用该数据库，我们使用一个 11 层 CNN 学习区分性表示并获得在 LFW 和 YTF 上的最新准确性。

Nov, 2014

用少量数据学习深层面部表示的 Frankenstein

应用深度卷积神经网络对人脸识别问题进行研究，提出利用真实面部图像进行合成的方式来生成大型合成图像数据集，有效缓解了小样本困境，同时在 CASIA NIR-VIS2.0 异构人脸识别数据集上取得最优结果。

Mar, 2016

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

重新审视深度学习时代数据的非合理有效性

通过 JFT-300M 数据集进行实验研究，发现模型的训练数据量与视觉任务的表现成对数关系，预训练模型仍具有很大的潜力，同时通过该数据集在不同视觉任务上得到了新的最优表现。希望研究者重视数据集构建和扩大规模的重要性。

Jul, 2017

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

LSUN: 使用深度学习和人类参与构建大规模图像数据集

通过部分自动化标记方案，我们扩大人类工作量，借助深度学习来提高图像分类的准确性，并构建一个新的图像数据集 LSUN，这对于进一步的视觉识别研究具有重要作用。

Jun, 2015

人脸识别的 Web 规模训练

本文研究了深度卷积网络在人脸识别中的性能，发现网络的 “瓶颈” 结构对于迁移学习具有重要作用，并提出了一种解决方法，即用自助法取代随机子采样；同时还发现了表示范数和目标域判别能力之间的联系，并基于这些发现，在目前最流行的人脸识别数据集 LFW 上取得了优秀的性能，甚至超越了商用系统。

Jun, 2014

面向多兆像素图像的流式卷积神经网络端到端学习

提出了一种新的方法，可以直接训练卷积神经网络使用任何输入图像大小端到端，通过将现代卷积神经网络中的大多数操作在图像的较小块上执行，演示了使用高达 66 百万像素的图像的概念证明，这样每个图像可以节省大约 50GB 的内存

Nov, 2019