- 大型语言模型微调的优化研究
研究中通过深入研究 Fine-tuning 的优化策略和技术,探讨了对于具有大量参数的语言模型在 GPU 资源限制下,平衡内存和运行时间的最佳优化方案。
- SlipStream: 分布式训练大规模 DNN 中的流水线调整
SlipStream 是一种在分布式培训系统中有效处理失败的系统,利用功能冗余和管道调度内的泡沫,通过两种优化实现连续培训并最小化或消除训练吞吐量降低。
- SoD$^2$: 静态优化动态深度神经网络
SoD$^2$ 是一个用于优化动态深度神经网络的综合框架,通过分类和使用常见操作符,结合 Rank and Dimension Propagation (RDP) 方法,实现了静态确定操作符形状并进行一系列优化,从而显著减少执行延迟和内存需 - 大规模分布式模型训练的高效并行化布局
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟 - 速度即一切:通过 GPU 感知优化在设备上加速大型扩散模型
本文介绍了一种优化了的基础模型,通过在移动设备上实施优化,使大规模扩散模型的推理延迟得到了显著缩短,从而提高了生成性 AI 的适用性并改善了用户体验。
- 序列中向量路由的算法
本文提出了一种路由算法,它能够通过对输入的向量序列进行计算得到指定长度和向量尺寸的新序列,并通过优化实现了可计算、可存储和内存占用量显著降低等多项功能,并在自然语言和视觉分类任务上得到了有竞争力或最先进的准确性和可解释性的端到端信贷分配。
- Circa: 随机 ReLUs 用于私人深度学习
本文提出了一种优化私有推断的方法,将 ReLU 算子重新表示为近似符号测试,并引入了一种新的截断方法,显著降低每个 ReLU 的成本,结果节省了存储和运行时间,同时不影响准确性。
- 深度神经网络加速的修剪与量化:一份调查报告
本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化,比较了它们的优劣,并且提出了相关的压缩网络的实用指南。
- AAAI机器人过程自动化的数据转换自动发现
本文提出了一种利用 UI 日志分析数据转换的优化技术,以发现在重复性数据传输过程中自动化的机会。
- Facebook 数据中心中的深度学习推理:特征描述、性能优化和硬件影响
本文详细介绍了 Facebook 社交网络服务中使用的深度学习模型的计算特征,并描述了针对现有系统的高性能优化,同时指出了其局限性,并为未来的通用 / 加速推理硬件提出建议。此外,我们强调了算法、数字和计算平台更好的协同设计来解决数据中心中 - DAWNBench 分析:一个时间准确率机器学习性能基准
一篇关于深度学习优化和基准测试的研究,通过 DAWNBench 提供的数据分析了不同优化方法对最终模型准确性和训练时间的牺牲情况,发现 TTA 在评价深度学习训练效果时的可靠性较高,同时发现在进行优化训练时还需更充分地利用硬件性能和降低通 - Tiramisu:用于快速和可移植代码表达的多面体编译器
介绍了 Tiramisu,这是一个多面体框架,可以在多平台上生成高性能代码,包括多核,GPU 和分布式机器。Tiramisu 引入了一种调度语言,通过创新的扩展来明确管理在针对这些系统时出现的复杂性。该框架为图像处理,模板,线性代数和深度学 - 在 GPU 上优化深度卷积神经网络的内存效率
本文探讨了对于卷积神经网络的内存效率的优化,以及其对性能的影响,并提出了数据布局及内存访问模式方面的优化策略。实验证明,这些策略不仅对于单个层面有效,对于整个神经网络也可获得高达 27.9 倍和 5.6 倍的速度提升。
- 使用 zenvisage 轻松进行数据探索:一种表现力强且交互式的可视化分析系统
zenvisage 是一个数据可视化平台,提供通用 Visual Query Language (ZQL) 来指定所需的可视化模式,模式的表达性至少与 Visual Exploration Algebra 相同,并且通过可视化 / 交互式接 - Ciao 及其设计哲学概述
Ciao 是一种多范式编程系统,支持逻辑编程,提供了许多来自不同编程范式和风格的有用特性,同时支持模块化和分离编译等编程环境,并提供了强大的预处理器和单元测试框架等工具,旨在在保留动态语言的灵活性和交互式开发的同时,提供静态语言的竞争力。