- 并行随机梯度下降的混合方法
我们提出了一种介于同步和异步方法之间的混合数据并行性方法,使用这两种方法训练神经网络,通过适当选择阈值函数来逐渐从异步转为同步的参数聚合,我们证明在一定时间范围内,我们的混合方法优于异步和同步方法。
- 面向资源受限环境的自适应联邦学习方法
本研究提出了一种资源自适应异步联邦学习算法 (Fed-RAA),通过根据计算和通信能力分配全局模型的片段给不同的参与客户端,从而解决异构资源下的联邦学习问题。该方法在理论上证实了收敛性,并设计了一种基于贪心算法的在线分配策略,与离线策略相比 - 非同步拜占庭联邦学习
通过无需辅助服务器数据集并且不受落后节点限制的拜占庭容错和异步联邦学习算法,我们的解决方案可以更快地训练模型,在梯度反转攻击下最多能保持 1.54 倍准确率,而在扰动攻击下最多能保持 1.75 倍准确率。
- 平滑 Q-learning 算法的统一 ODE 分析
通过异步强化学习和平滑版本的简化框架,提出了更加广泛和统一的 Q-learning 及其平滑变体的收敛性分析方法。
- 异步扩散学习中的代理子抽样和本地更新
我们研究了一个异步操作的代理网络,旨在发现适合个体本地数据集的理想全局模型。我们的假设是每个代理根据自身算法独立选择何时参与,并在任何给定时刻选择与其合作的特定子集。在该设置下,我们证明了异步扩散策略在均方误差意义下是稳定的,并针对联邦学习 - 从基于实例自我注意力的 Hawkes 过程中学习格兰杰因果性
我们提出了一种新的深度学习框架,Instance-wise 自注意力 Hawkes 过程(ISAHP),可以直接推断事件实例级别的 Granger 因果关系,ISAHP 是满足 Granger 因果关系要求的第一个神经点过程模型。
- 语言建模的异步局部 SGD 训练
本篇论文通过实证研究异步 Local-SGD 对训练语言模型的影响,发现异步 Local-SGD 相较于同步对应方法虽然更频繁地更新模型参数,但需要更多迭代才能达到收敛。主要挑战是在工作者梯度失效时全局参数的动量加速。提出了一种新方法,利用 - 利用 RGB 和事件相机的可变形神经辐射场
使用 RGB 和事件相机以及异步的事件流与校正的稀疏 RGB 帧的组合,共同优化事件相机的位置和辐射场,以建模可变形的神经辐射场。该方法在处理高变形和低采样率的情况下显示出显著优势,并在真实世界数据集上进行了实验证明其对建模动态场景中的可变 - WassersteinBarycenter 问题的异步去中心化算法
本文提出了一种基于异步去中心化算法的 novel stochastic block coordinate descent 方法 (A^2DWB),用于优化经验正则化 WBP 的对偶问题,实验结果验证了它相对于最新的同步算法具有卓越的性能。
- DADAO: 分离的加速去中心化异步优化
DADAO 是第一个分布式异步算法,可通过分别使用独立的泊松点过程模拟本地梯度更新和闲话通信过程进行并行计算和加速通信,而不需要使用内部循环或其他特定机制,例如误差反馈,梯度跟踪或近端算子。
- 慢而稳定的梯度也能取得胜利
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
- 卷积神经网络的解耦贪心学习
本文提出了解决反向传播过程中每层必须等待信号传播整个网络才能更新的锁定问题的替代方案 Decoupled Greedy Learning,通过使用最小反馈进行网络训练,并探讨了该方案的优化方法,可以在线性层级并行化的情况下独立地训练网络层或 - 异步共享内存中随机梯度下降算法的收敛性
本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性,提出了在异步共享内存模型下的新收敛界限,同时指出了最大延迟和算法收敛速度之间的基本权衡关系。
- MM异步和延迟的去中心化一致性优化
本研究提出了一种异步、分散的共识优化算法,可在没有全局时序同步的情况下,利用本地计算和信息传递,在有限延迟和随机代理假设下收敛于精确解。
- 深度学习的八卦训练
本研究旨在解决加速卷积神经网络训练的问题,其中使用了一种适用于随机梯度下降的分布式方法。这种并行优化设置使用多个线程,每个线程在本地变量上应用单独的梯度下降,并提出了一种具有吸取交际算法启发式的共享不同线程信息的新方法,具有良好的一致收敛性 - 分布式决策调查
本研究调查了关于检查给定分布式系统配置是否符合给定布尔谓词的最近分布式计算文献,考虑了经典的分布式计算环境,包括大多数同步无故障网络计算(LOCAL 和 CONGEST 模型),以及异步崩溃共享内存计算(WAIT-FREE 模型)和移动计算 - 异步 Gibbs 采样保证快速混合和低偏差
本文研究异步 Gibbs 抽样中的偏差和混合时间问题,展示理论结果与实验结果的相符性。
- MM分布式深度 Q-Learning
我们提出了一种分布式深度学习模型来直接从高维感知输入中学习控制策略,使用强化学习来评估未来奖励,并通过对 DistBelief 软件框架的适应来分布式地训练,实现了异步和扩展性。
- 异步并行随机梯度下降 - 可扩展分布式机器学习算法的数值核心
本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD,相较于现有方法,ASGD 具有更快(或至少相当)的收敛速度,接近于线性的缩放以及稳定的准确性,在大规模机器学习问题中具有应用前景。
- PASSCoDe:并行异步随机双坐标下降
本文研究了在共享内存多核处理器上并行化基于随机双坐标下降的算法,提出了一种异步算法 ASDCD,分析了使用不同锁定 / 原子机制的收敛性,并在实验结果中展示了我们的方法比以前的并行坐标下降求解器更快。