Oct, 2018

TensorFlow 中深度学习 I/O 工作负载的表征

TL;DR本文旨在研究 DL 计算框架中 I/O 对性能的影响并通过设计微型基准测试和使用 AlexNet 等来测量 TensorFlow 的 I/O 性能和检查点成本,在此基础上,提出了一种使用突发缓冲区进行检查点的设计,最终发现增加线程数量可以最多将 TensorFlow 带宽提高 2.3 倍,在 CPU 上增加使用 prefetcher 可以完全消除 I/O 对于整体性能的负面影响,并且在基准测试环境中使用突发缓冲区进行检查点可以使性能提高 2.6 倍。