- 记忆 ³:带显式记忆的语言建模
利用显式记忆将大型语言模型(LLMs)的训练和推理成本降低,实现更小的参数大小、训练成本和推理成本,从而传递意义的计算。
- 面向推理最优的混合专家大语言模型
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指 - 保存检查点线性组合提高一致性和扩散模型性能
利用合适的检查点平均系数, LCSC 方法能够通过沿训练轨迹结合检查点来增强 DM 和 CM 的性能,以降低训练成本并提高预先训练模型的生成质量。
- HERTA:高效且严格的展开图神经网络训练算法
提出了 HERTA 算法,用于加速和规范化训练过程,保持 Unfolded GNNs 的解释性,解决了训练成本和扩展性挑战。
- 可靠分布式压缩机器学习模型训练
提出了 DepL 框架,用于可靠的学习编排,能够在最小的培训成本下以目标概率达到目标学习质量,优于现有技术 27% 以上,并与最佳结果相近。
- IJCAI社会可解释性强化学习
基于社会学习原理的 Social Interpretable RL (SIRL) 是一种改善学习效率的新型基于人口的方法,通过模拟社会学习过程使每个群体中的智能体基于自身的个体经验和与同伴的共同经验来解决给定任务,实现了在高风险场景中解释能 - ICCV基于概念聚类复杂性的大规模网络数据集的有效剪枝
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
- 具有结构化数据的高效异步随机梯度算法
该研究探讨了通过 Kronecker 结构加速训练数据输入的方法,从而在数据维度的次线性时间内完成每次迭代。
- 在受限多目标联合学习中优化隐私、效用和效率
本文旨在通过开发二种基于 NSGA-II 和 PSL 算法的改进型多目标优化算法,实现联邦学习系统的多目标优化,包括模型性能最大化,隐私泄露和培训成本最小化以及对恶意攻击的鲁棒性,并在保证模型性能的同时,优化三个主要目标:隐私泄露、效用损失 - 在亚二次时间内训练多层过参数化神经网络
本文提出了一种降低神经网络训练成本的框架,其中使用各种技术,包括基于 ReLU 的稀疏化器、低秩数据结构、矩形矩阵乘法、张量草图技术和预处理,实现每次迭代的真正次二次成本。
- 搜索用于语言建模的高效 Transformer
通过搜索一种更高效的变体,即 Primer,我们旨在降低 Transformer 模型的训练和推理成本,并且我们证实 Primer 可以在不添加额外调整的情况下显著加快训练速度。
- MutualNet: 通过从不同模型配置中相互学习实现自适应的 ConvNet
本文提出使用 MutualNet 方法可以训练单个网络在不同的资源限制条件下进行运行,且本方法适用于各种神经网络架构和任务,并且能够降低训练成本。
- MotherNets: 快速深度集成学习
该研究提出 MotherNets 来解决深度神经网络集成中的训练成本和模型多样性问题,并在减少训练成本和提高模型精度方面取得了新的 Pareto 前沿。
- 卷积神经网络面部动作单位识别中的滤波器尺寸优化
本文提出了一种基于优化卷积核尺寸的 CNN 模型,在训练过程中通过连续变量优化卷积核尺寸,避免了传统方法中昂贵的训练成本,并在 AU-coded spontaneous databases 实验中证明其能够同时适应不同分辨率下的图像,相对于