- ICML加权低秩逼近的重新加权解
通过使用权重矩阵本身进行矩阵重新加权,我们提出了一种放松的 WLRA 解法,该方法可以输出一个并非低秩矩阵,但可以使用非常少的参数进行存储,并在权重矩阵具有低秩时给出可证明的近似保证。此外,我们的算法在模型压缩和合成数据集方面展现出非常出色 - 合作多智体强化学习中的随机探索
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问 - 数据异构下去中心化学习的本地更新有效性
在本文中,我们研究了两种基础的分散式优化方法:分散式梯度跟踪(DGT)和分散式梯度下降(DGD),并考虑了多次本地更新。我们证明了增加本地更新步骤可以降低通信复杂性,并揭示了通信与计算之间的权衡关系。在数据异质性较低且网络连接良好时,增加本 - Transformer 架构的限制
大型语言模型中幻觉的根本原因是通信复杂性,我们通过示例证明了 Transformer 层在函数的定义域足够大时无法进行函数组合(例如在家族谱中确定一个人的祖父),对于足够小的定义域,这种无能已经在实证上存在。我们还指出,对于足够大的实例并且 - 注意力的 I/O 复杂性:闪快注意力有多优化?
FlashAttention 算法解决了自我注意力在 Transformer 架构中的 I/O 复杂性问题,并且建立了通信复杂性与 I/O 复杂性之间的联系。
- SCAFFLSA: 量化和消除联邦式线性随机逼近和时序差异学习中的异质性偏差
本文对联邦线性随机逼近(FedLSA)算法进行了非渐进分析,定量化了异质代理的本地训练引入的偏差,并调查了算法的样本复杂度。我们展示了 FedLSA 的通信复杂度与所需精度 ε 的多项式缩放,从而限制了联邦的好处。为了克服这一问题,我们提出 - 相关量化用于更快的非凸分布式优化
利用相关量化器,我们分析并改进了 MARINA 优化算法,提高了通信复杂度,并且通过实验证实了我们的理论发现。
- AAAIFedNS: 快速草图牛顿算法用于联邦学习
提出了一种名为 Federated Newton Sketch 方法(FedNS)的算法,通过通信 sketched square-root Hessian 来逼近中心化的 Newton's 方法,以此解决了 Hessian 矩阵的通信复杂 - 分散双层优化的通信复杂度
我们开发了一种新颖的去中心化随机双层梯度下降算法,在异构环境中具有每轮小的通信成本和通信轮数,从而比现有算法实现了更好的通信复杂度。我们还将我们的算法扩展到更具挑战性的去中心化多级优化问题。根据我们的知识,我们是第一次在异构环境下实现这些理 - 图上异步 SGD:异步分布式和联邦优化的统一框架
分布机器学习中的去中心化和异步通信是提高通信复杂性的两种流行技术,而将这两种技术结合起来仍然是一个挑战。本文引入了一种名为 AGRAF SGD 的异步 SGD 算法框架,它包括了许多流行算法的异步版本,如 SGD、去中心化 SGD、本地 S - 解决联邦学习中一类非凸极小化最大化优化问题
我们研究了一类联邦非凸极小极大优化问题,提出了 FL 算法,并减少了对最常见的极小极大问题的通信复杂度。
- CORE: 分布式优化的通用随机重建算法及可证明低通信复杂度
基于 Common randOm REconstruction (CORE) 技术,本研究提出了一种可以压缩传输信息、降低通信复杂度的分布式机器学习算法,并通过应用于线性模型和非凸优化等分布式任务,设计了新的具有更低通信复杂度的分布式算法。
- 面向特征分布数据的可伸缩高维多元线性回归
该论文提出了一种两阶段松弛贪心算法(TSRGA),用于对特征分布数据应用多元线性回归分析。TSRGA 的主要优势是其通信复杂度不依赖于特征维度,使其能够高度扩展到非常大的数据集。此外,对于多元响应变量,TSRGA 可以用于得到低秩系数估计。 - 一种灵活的梯度追踪方法的计算 - 通讯权衡
提出了一种灵活的梯度跟踪方法,用于解决非独立同分布情况下网络上的分布式随机优化问题,利用设计良好的李亚普诺夫函数,导出了计算和通信复杂度,以实现在光滑和强凸目标函数上的任意精度。
- 通过二阶方法实现联邦经验风险最小化
本文提出一种内点法(IPM),用于在联合学习设置下解决一般的经验风险最小化(ERM)问题,展示了每次迭代 IPM 的通信复杂度具有 O(d ^ {3/2})的上限。
- 特征稀少时误差反馈显著
本研究首次证明具有贪心稀疏化和误差反馈的梯度下降算法可以在分布式优化问题中获得更好的通信复杂度,在研究中,我们特别关注了稀疏特性。
- SparDL:高效稀疏通信的分布式深度学习训练
提出了 SparDL,一种灵活而高效的稀疏通信框架,使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题,并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例,大量实验 - SAGDA: 在联邦式 Min-Max 学习中实现 O (ε^{-2}) 通信复杂度
本文提出了一种名为 SAGDA 的新算法框架,用于降低联邦 min-max 学习的通信复杂度,并在此基础上提高了对标准 FSGDA 方法通信复杂度的理解。
- ICML联邦学习中快速复合优化和统计恢复
本文研究了在联邦学习设置下一类组合优化和统计恢复问题,提出了新的算法,旨在从优化和统计两个角度开拓这一领域,实验表明该方法比其他基线优秀。
- 高效 Adam:具复杂度分析的通信高效分布式 Adam
本文提出了一种称为 Efficient-Adam 的新型通信高效的分布式优化算法,采用双向量化策略和双向误差反馈策略,在保证迭代收敛精度的同时有效减少了服务器与工作节点之间的通信成本,并应用于解决了一个随机凸优化问题,以及在实际视觉和语言任