一种用于高效训练视频模型的多重网格方法
本文提出采用多级培训策略来加速视频超分辨率模型的训练,早期阶段的模型尺寸更小。同时,使用 GPU 并行化加快培训速度。实验证明,该策略可以在保持准确率的情况下加速培训达 6.2 倍。
May, 2022
本研究提出了一种基于多重网格结构的卷积神经网络,能够在不同尺度空间上操作输入和输出,实现任务的动态路由和内部注意力机制,以及通过逐级概括将上下文信息融合到网络中。在分类和语义分割等多项任务中得到了相对较好的表现表明,相对于传统的基于单一网格的卷积神经网络结构,基于多重网格的设计方案更加高效且灵活。
Nov, 2016
本论文研究了深度神经网络的过拟合问题和多重网格结构在其中的应用,提出了一种多重网格启发式体系结构框架,可以在维度间利用多重网格结构来实现线性权重复杂度缩放和大幅减少权重数量,进而在网络复杂度较低时,通过减少权重数量降低过拟合问题,相比于现有的 ResNet 架构实现更好的图像分类结果。
Nov, 2022
提出了一个用于 GPU 集群的高度可扩展的深度学习训练系统,其中包括采用混合精度训练的方法、优化极大 mini-batch size 的方法、采用高度优化的全约约算法等,这些方法的使用将深度学习训练的吞吐量和精度取得了很好的平衡。
Jul, 2018
我们提出了一种非常简单的贪婪生长方法,用于稳定训练大规模、高分辨率模型的像素级图像扩散模型,避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件,即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上,我们提出了一种贪婪算法,将架构扩展到高分辨率端到端模型,同时保持预训练表示的完整性,稳定训练过程,并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型,而无需超分辨率级联。我们的主要结果基于公共数据集,表明我们能够训练出高达 80 亿参数的非级联模型,而无需进一步的正则化方案。Vermeer 是我们的完整管道模型,使用内部数据集训练以生成 1024x1024 图像,在 SDXL 上,相较于人类评估者的 21.4%,它被 44.0%的评估者选择。
May, 2024
通过优化 IO、CPU 和 GPU 计算,本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道,与之前的工作相比,我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。
Sep, 2023
该论文提出了一种新的并行剪枝方案(称为 “并行化时间”),基于多网格时间缩减(MGRIT)求解器对 GRU 进行训练,可以在序列长度增加时显著提高性能,实验结果显示,与串行方法相比,新的并行化训练方案实现了高达 6.5 倍的加速比。
Mar, 2022
本文提出了一种创新的无监督学习高分辨率视频数据集的方法,通过将生成器模型设计为小的子生成器的堆栈,并以特定的方式训练模型来实现,每个子生成器都与其自己特定的鉴别器一起训练,并且在训练时,在每个相邻的子生成器对之间引入了一个辅助的子抽样层,以降低帧率和成本,并且使用少量的 GPU,这一方法的思想可以在生成器性能上远胜于之前的方法。
Nov, 2018
对多尺度分辨率训练的数据采样器进行了实证研究,发现其行为类似于隐式的数据正则化器,加快了训练速度并提高了模型的准确性、鲁棒性和数据校准性,同时通过渐进增加分辨率的简单课程对多尺度变量批量采样器进行了扩展,实现了 30% 以上的计算减少,并在检测和实例分割任务中观察到了训练 FLOP 减少 37% 以及 Mask R-CNN 模型 mAP 提升 3-4%。
Sep, 2023
本文提出了一种多速率神经网络训练方法,将神经网络参数划分为 “快速” 和 “慢速” 部分,在不同的时间尺度上进行训练,从而获得传输学习任务的显著计算加速。我们通过在视觉和 NLP 应用中 fine-tune 深度神经网络,证明了我们可以在几乎一半的时间内完成调整,而不影响所得模型的泛化性能。同时,我们分析了多速率方案的收敛性质,并与普通随机梯度下降算法进行比较。本文的贡献是揭示了使用多速率技术进行神经网络训练的潜力,并为未来的工作提供了几个起点。
Jun, 2021