- VeLoRA:使用排序 - 1 子标记投影的内存高效训练
通过梯度下降,我们确认了大型语言模型的有效模型收敛所需的重要组件,并提出了一种廉价且内存高效的算法来进行微调和预训练大型语言模型。
- 大型语言模型中的跨语言迁移学习动态数据采样器
提出 ChatFlow 模型,通过跨语言迁移实现了大规模中文语言模型的高性能训练,包括大型语料库的收集与资源的利用、对齐跨语言表示以促进知识转移、使用动态数据采样器渐进式地将模型从无监督预训练过渡到有监督微调,实验证明了该方法在加速模型收敛 - PoPE:基于勒让德正交多项式的位置编码在大型语言模型中的应用
通过理论洞察和实证分析,我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响,发现这些挑战不仅存在于绝对位置编码,也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此,我们引 - 超越噪声:带有虚拟节点的隐私保护去中心化学习
Shatter 是一种新型的分散式学习方法,通过创建虚拟节点(VNs)来增强隐私保护,防止攻击者收集完整模型并隐藏原始节点的身份。该方法在提高隐私安全性的同时,对于模型收敛性也有积极影响。
- 选择有益的本地梯度加速联邦学习
本文提出了 BHerd 策略,通过选择有益的本地梯度集合来加速联邦学习模型的收敛,并通过实验证明该策略在选择有益本地梯度方面是有效的。
- LLM 模型的无痛二阶微调:基于黑塞矩阵的零阶优化器
使用对角度黑塞矩阵增强零阶优化算法以提高大型语言模型的微调效果,显著减少训练步骤并有效增强模型准确性。
- AAAI一步前進與回退:克服損失感知量化訓練中的曲折問題
本文提出了一种新的损失感知量化方法,通过一步前进和回溯的方式来获取更准确、更稳定的梯度方向,解决了梯度下降学习过程中梯度方向快速震荡的问题,实验证明该方法在收敛性能上具有竞争力且优于其他方法。
- FLex&Chill: 通过 Logit 冷却提高本地联合学习训练
提出了一种新的联邦学习模型训练方法 FLex&Chill,通过 Logit Chilling 方法利用非独立同分布数据特征,从实验中观察到全球联邦学习模型收敛时间提高了 6 倍,推断准确率提高了 3.37%。
- 基于对比编码器预训练的聚类联邦学习用于异种数据
使用自监督对比学习和客户端聚类的方法,提出了基于对比预训练的聚类联合学习方法,以改善联邦学习系统的模型收敛性和性能。
- 图神经网络中的合作小批处理
通过合作微批处理以及依赖性连续微批处理方法,我们在单节点多 GPU 系统上实现了高达 64% 的加速,同时减少了获取顶点嵌入的带宽消耗。
- 流行病学习:通过随机通信提升分散式学习
Epidemic Learning is a decentralized learning algorithm that leverages changing communication topologies to achieve fast - ABS-SGD:一种适用于异构 GPU 集群的带有自适应批大小的延迟同步随机梯度下降算法
我们提出了一种在异构 GPU 集群中具有自适应批大小的延迟同步随机梯度下降(ABS-SGD)算法,该算法通过全局同步来积累延迟的梯度,并使用积累的延迟梯度来更新参数,实现了计算资源的充分利用,并且在异构集群中具有收敛性。
- 通过贝叶斯数据选择实现模型训练加速
使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器,解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题,提高了模型的训练效率。
- 有效的半监督异构参与者联邦学习
在资源受限环境中,通过介绍聚类正则化和全局更新频率适应的控制算法,我们提出了一种新的训练模型系统,用于解决联合学习中的数据非独立同分布和模型收敛性问题,该系统在减少训练时间和通信成本的同时提高了准确性。
- CVPR针对域泛化的锐度感知梯度匹配
本文提出 Sharpness-Aware Gradient Matching (SAGM) 算法,旨在通过渐进地对齐经验风险和扰动损失的梯度方向,提高模型泛化能力,并通过实验表明 SAGM 的表现优于当前 DG benchmark 中的现有 - MM联邦贝叶斯学习的客户端选择
本文提出了两种分布式 Stein 变分梯度下降(DSVGD)选择方案,基于核化 Stein 差异度和希尔伯特内积,以提高模型收敛速度和通信效率。通过在各种学习任务和数据集上进行评估和比较,证明了这些方案在模型准确性、收敛速度和稳定性方面的优 - 基于回归的损失函数在时间序列预测中的综述
本文总结了 14 个常用回归损失函数,列出了它们在时间序列预测中的应用情况,并展示了某些类别的损失函数在所有数据集上表现良好,并考虑将其作为在数据分布未知的情况下的基础目标函数。
- 通过残差快速傅里叶变换和 Wasserstein 距离提高人类图像合成
本文针对虚拟人类的图像合成技术中 GAN 训练中存在的不稳定、收敛慢以及图像渲染效果不真实等问题,提出了利用快速傅里叶变换块替代传统残差块,以及采用谱归一化和 Wasserstein 距离等手段来提高 GAN 训练速度和稳定性,实验表明这些 - 适应性神经元凋亡用于加速大规模深度学习系统
该研究提出了一种通过在训练过程中低廉地去除不必要的神经元,即神经元凋亡的新技术,以加速深度学习算法的收敛,并成功应用于多个数据集中,在减少参数数量等方面得到了显著改善。