Caffe con Troll: 加速深度学习的浅层思路

Apr, 2015

Caffe con Troll: 加速深度学习的浅层思路

Caffe con Troll: Shallow Ideas to Speed Up Deep Learning

Firas Abuzaid, Stefan Hadjis, Ce Zhang, Christopher Ré

TL;DRCaffe con Troll是一种重新构建内部的与现有框架Caffe完全兼容的端到端版本，通过CPU训练标准批处理优化，可以实现对卷积神经网络的高效训练，并能够训练混合CPU-GPU系统。

Abstract

We present caffe con troll (CcT), a fully compatible end-to-end version of the popular framework Caffe with rebuilt internals. We built CcT to examine the performance characteristics of training and deploying general-purpose →

发现论文，激发创造

Caffe：快速特征嵌入的卷积架构

Caffe是一个跨平台的深度学习框架，提供了用于训练和部署卷积神经网络及其他深度模型的Python和MATLAB接口，并通过CUDA GPU进行加速，每天可处理超过4000万张图像。由伯克利视觉与学习中心维护和开发，用于视觉、语音和多媒体的研究项目和大型产业应用。

Jun, 2014

使用FBFFT的快速卷积神经网络：GPU性能评估

本文研究了卷积神经网络在当前NVIDIA图形处理器上的性能，介绍了两种新的快速傅立叶变换卷积实现，对于整个CNN，fbfft比cuFFT快1.5倍以上，并且对于许多普通的卷积层，速度也比NVIDIA的cuDNN实现快（达到了一些合成内核配置的23.5倍）。

Dec, 2014

用于异构硬件系统上的像素级分类的高效卷积神经网络

本文介绍了三个用于图像像素分类的卷积神经网络模型，通过去除冗余计算或使用全卷积体系结构来解决滑动窗口网络中存在的冗余计算问题。作者对这三种模型进行了评估，并评估了它们在两个神经组织数据集上的表现，以及训练过程中使用的不同损失函数。

Sep, 2015

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

深度学习软件框架的比较研究

本文比较了五种深度学习框架（Caffe，Neon，TensorFlow，Theano和Torch）在三个方面的性能（可扩展性，硬件利用率和速度指标），并评估了它们在训练和部署各种深度学习结构时的性能。研究结果表明：Theano和Torch是最易于扩展的框架，中央处理器上最适用的框架是Torch，然后是Theano，此外Caffe可以轻松地评估标准深度结构的性能，TensorFlow是非常灵活的框架，但目前其性能与其他研究的框架相比不具竞争力。

Nov, 2015

Omnivore: 一种用于在CPU和GPU上进行多设备深度学习的优化器

该研究通过标准批处理和数据并行技术，在单个节点环境中将吞吐量提高至少5.5倍，并在多节点环境中研究了异步并行化对训练时间的影响，并提出了一种高效的超参数优化器，以选择资源分配方式以最小化收敛所需的总时间。

Jun, 2016

深度学习软件工具的最新技术对标

本文主要研究了 Caffe、CNTK、MXNet、TensorFlow 和 Torch等最新的 GPU 加速深度学习软件工具，并通过基准测试比较了这些工具的性能。本研究旨在为终端用户选择合适的硬件平台和软件工具提供指南，并为深度学习工具的软件开发者指出未来的性能优化方向。

Aug, 2016

咖啡因 FPGA：用于卷积神经网络的 FPGA 框架

本文介绍了一种修改版CNN框架Caffe，该框架支持FPGA实现，并使用Xilinx SDAccel环境实现了基于FPGA的Winograd卷积引擎，能够与其他运行在主机处理器上的层一起运行几个流行的CNN模型，取得了50 GFLOPS的成果。

Sep, 2016

深度学习中TPU、GPU和CPU平台的基准测试

这篇研究论文介绍了一个参数化基准套件Paradnn，用于评估深度学习平台性能，重点评估了谷歌Cloud TPU v2/v3、英伟达V100 GPU和英特尔Skylake CPU平台，在针对每种平台引入特殊软件技术栈的情况下，对每种类型的模型的专门优势进行了量化比较。

Jul, 2019

Im2win：GPU 上的高效卷积操作

本文提出了基于im2win的卷积范式，旨在通过持续的内存访问提高性能，并经过了优化技术的改进，与其他基于cuBLAS和cuDNN的卷积实现相比，内存占用少23.1%至32.8%，性能提高了3.5倍至155倍。

Jun, 2023