无对偶的SDCA

Feb, 2015

SDCA without Duality

Shai Shalev-Shwartz

TL;DR本文介绍了一种Stochastic Dual Coordinate Ascent算法的变体，用于解决非凸损失函数的正则化损失最小化问题，并且证明了只要期望损失是凸的，就可以确保该算法具有线性收敛速度。

Abstract

stochastic dual coordinate ascent is a popular method for solving regularized loss minimization for the case of convex losses. In this pap

发现论文，激发创造

本研究介绍了随机对偶坐标上升法(SDCA)的新分析，证明了这类方法具有与随机梯度下降法(SGD)相当或更好的理论保证，从而证明了SDCA在实际应用中的有效性。

Sep, 2012

介绍了一个基于proximal的对偶协调上升方法，该算法框架可以用于多种正则化损失最小化问题，包括l1正则化和结构化输出SVM。我们取得的收敛速度与现有最先进结果匹配并有时超过。

Nov, 2012

本篇论文介绍了一种在机器学习中用于解决正则化损失最小化问题的有效技术，即随机对偶坐标上升算法（SDCA）的一种扩展，首次引入了一种加速版的mini-batch SDCA算法，并且证明了它的快速收敛率。我们在并行计算系统上实现了该方法，并将结果与常规SDCA和加速的确定性梯度下降方法进行了比较。

May, 2013

本文介绍了一种基于近端随机对偶坐标上升方法的算法，并演示了如何使用内外迭代过程加速该方法。我们分析了该框架的运行时，并获得了改进各种关键机器学习优化问题（包括SVM、逻辑回归、岭回归、套索以及多类别SVM）的最新结果的速率。实验验证了我们的理论发现。

Sep, 2013

本文提出了分布式随机双协调上升算法（DisDCA）以解决大规模正则化损失最小化问题，并通过理论分析和实证研究证明，通过增加每次迭代的双向更新次数，DisDCA算法可以实现指数级收敛加速，从而证明了实际DisDCA算法相对于基本算法具有卓越的性能。

Dec, 2013

本文提出了一种高效的分布式随机坐标下降算法，用于最小化正则化的非强凸损失函数，并经过在英国最大的超级计算机Archer上的实现，表明该算法可以有效解决一个具有500亿个变量的LASSO优化问题，具有O(1/k^2)的收敛速度。

May, 2014

通过Stochastic Dual Newton Ascent算法，我们提出一种新的途径最小化正则化经验损失，该方法更新了随机子集的对偶变量，可以利用模型中所有曲率信息，实践中有着明显的提高，特别对于二次损失函数。

Feb, 2015

该论文提出了一种改进的mini-batch随机双坐标上升方法，用于正则化经验损失最小化（即，支持向量机和支持向量机类型目标）。我们的分析允许灵活的抽样方案，包括数据分布跨多台机器，并结合了对损失平滑度和/或数据展开性的依赖（通过谱范数度量）。

Jul, 2015

提出了改进型的随机对偶坐标上升方法，无需显式正则化，无需依赖对偶性，甚至对于非凸损失函数，只要期望损失函数是强凸的，就可以证明收敛率是线性的。

Feb, 2016

本文提出了一个新的分布式双重正则化损失函数最小化问题的方法，可以直接处理数据并行性，并允许系统地导出二次坐标优化过程。通过这个新的公式，我们开发了分布式替代双重最大化（DADM）的加速版本，并提供了理论上的性能分析，发现其性能明显优于以前的分布式坐标优化算法。

Apr, 2016