- 时间的重要性:适用于任意预算的规模定律
通过内存拷贝建立一种更准确的大型模型训练时间估算方法,利用超参数和缩放法可估计模型的最终损失并对模型进行架构决策和更高效的训练。
- 音乐个性化的负反馈
使用真实的负反馈作为输入和训练目标,在网络广播的下一首推荐系统中,有助于减少训练时间约 60%,并提高测试准确性约 6%;同时,添加用户跳过作为额外输入还可以显著增加用户覆盖率并略微提高准确性。
- ICCVEfficientTrain++:高效视觉主干训练的广义课程学习
通过使用更简单的数据对形成更难样式的模型进行培训,我们将课程学习的思想进行了一般化。我们通过引入傅立叶光谱的裁剪操作和数据增强的强度调制,设计出一种简单而高效的培训方法 EfficientTrain++,它减少了各种流行模型在 ImageN - 核心校正 LSTM
使用 Kernel Corrector LSTM (KcLSTM) 替代 Corrector LSTM 中的元学习方法 —— 核平滑方法,能够降低训练时间,同时保持有竞争力的预测准确性。
- 通过动态跳过陈旧嵌入来加速推荐模型训练
Slipstream 是一个软件框架,通过识别过时的嵌入并跳过其更新来提高性能,在真实世界的数据集和配置方面,相比 Baseline XDL、Intel-optimized DRLM、FAE 和 Hotline,SlipStream 分别展 - COLING鬣狗如何处理人类语音?使用 ConfHyena 进行语音识别和翻译
借鉴 Hyena 模型进行改进,我们提出了 ConfHyena 模型,以减少长序列语音处理的计算时间并保持较高的质量表现。在英语的自动语音识别和从英语到 8 种目标语言的翻译实验中,我们的 ConfHyena 模型在训练时间上节约了 27% - 理解采样近似损失的训练加速
通过选择具有大梯度 / 损失的样本,可以显著减少训练步骤,本文提出了一种基于贪婪法选择具有大近似损失的样本来降低选择开销,并在训练 BERT 模型上展示了显著的训练时间节约和收敛速度提升。
- FedFair^3: 在联邦学习中实现三重公平
该研究论文提出了一种在联邦学习中实现三重公平性的公平客户选择方法,通过公平的客户选择策略、公平的参与轮数和客户间的公平准确度分布,与现有技术基准相比,在 IID 数据上减少了 18.15% 的准确率差异,在非 IID 数据上减少了 54.7 - 通过更快的 Frank-Wolfe 迭代来扩展差分隐私 LASSO 正则化逻辑回归
利用 Frank-Wolfe 算法对稀疏输入数据训练差分隐私回归模型,大幅减少了训练时间,可以提升多达 2200 倍的运行速度。
- 卷积神经网络图像分类中的学习曲线估计策略与影响
通过估算模型的学习曲线,选择最佳模型进行全数据集训练,以减少培训时间。本文提出了一种框架和几种策略,并通过模拟学习曲线和图像分类任务的实验对这些策略进行了评估。
- 迭代数据属性相互映射的可控数据生成
该论文提出了一个通用框架,以增强基于 VAE 的数据生成器的属性可控性和确保解缠。通过在训练集中对看到和未看到的数据进行优化,我们的目标在短时间内能够更精确地控制生成样本的属性,保证解缠并保持生成样本的有效性。
- 利用点云生成进行近表面采样的神经辐射场改进
该论文提出了一种改进 NeRF 渲染质量的近表面采样框架,通过估计 3D 场景的表面,只在表面周围进行采样,从而提高了渲染质量,并且能够显著加速 NeRF 模型的训练时间。
- 降低深度强化学习模型中的不良行为
提出一种基于决策树分类器的框架,用于在 DRL 软件中大幅减少不良行为并提供工程师可理解的描述,且仅略微增加训练时间及对性能的影响。
- 分布式图神经网络训练的分区策略实验比较
本文研究了图分区对分布式图神经网络训练的有效性,发现图分区是一个关键的预处理步骤,能够大大减少训练时间和内存占用,同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。
- 朝零内存占用的脉冲神经网络训练
设计具有高准确性的可逆 SNN 节点以降低内存占用并利用算法来加速训练过程,从而减少训练时间。
- 冻结掩码 DETR: 一个 GPU 实现高质量实例分割
建立一个强大的实例分割器,通过引入一个简单通用的框架 Mask Frozen-DETR,可以将任何现有的 DETR-based 目标检测模型转换为一个强大的实例分割模型,从而在性能和训练效率方面超过了最先进的实例分割方法 Mask DINO - 使用梯度累积优化技术评估 Swin Vision Transformer 模型的性能
评估了使用渐进积累优化(GAO)技术的 Swin ViT 模型的性能,发现与标准的 Swin Transformer 模型相比,应用 GAO 技术导致了 Swin ViT 模型的准确性显著降低,同时训练时间显著增加,因此在使用 GAO 技术 - UniAP: 统一的跨层和内层自动并行化方法:混合整数二次规划
深度学习模型的训练时间长依然是一个关键问题,提出了自动并行化来解决这个问题,并提出了 UniAP 方法来统一内部和外部自动并行化,实验证明 UniAP 在吞吐量上超过了现有方法 1.70 倍,并且减少了搜索时间 16 倍。
- 风格化投影 GAN:一种快速且逼真的图像生成新结构
利用转移学习将生成和真实样本投影到预训练的特征空间中,提出了优化后的结构化投影生成式对抗网络 Stylized Projected GANs,用于解决生成图像中出现的问题。
- 用 Coresets 训练量子 Boltzmann 机
使用 coreset 技术加速量子算法在量子计算机上的训练时间,尤其是应用于 Quantum Boltzmann Machines 时的梯度下降算法,以减少计算时间并提高实际效益。