BriefGPT.xyz
Ask
alpha
关键词
convex regularizers
搜索结果 - 3
针对强化学习的政策镜面下降算法:线性收敛、新采样复杂度和广义问题类
本文提出了新的政策镜反射(PMD)方法,用于解决具有强凸性或一般凸性正则化的强化学习(RL)问题,并使用不同的采样方案建立了这些问题的随机对应物。我们证明了 PMD 方法在快速收敛到全局最优解方面的线性速率,提出了计算这些正则化梯度的复杂度
→
PDF
3 years ago
收敛速度为 O(1/n)的随机组合最小二乘回归
考虑由二次函数的期望值和任意凸函数组合成的复合目标函数的最小化问题,我们研究了随机双均值算法在恒定步长下的特性,证明其无需强凸假设即可获得 O (1/n) 的收敛速度,从而将欧几里得几何中关于最小二乘回归的较早结果扩展到了 (a) 所有凸正
→
PDF
7 years ago
ICML
通过再分配非凸性实现非凸正则化族的高效学习
本文提出了将非凸正则化器中非凸性转移至损失函数的方法,使得正则化器可以转化为熟悉的凸正则化器,而损失函数仍然保证平滑,从而可以使用现有的用于凸正则化器的高效算法进行求解。实验证明,该方法在各种机器学习应用场景中均可显著提高求解速度。
PDF
8 years ago
Prev
Next