无尺度在线学习
我们设计了一种在线线性优化算法,其具有最佳的遗憾度,并且不需要知道损失向量范数的上界或下界。通过尺度不变性,我们实现了对损失向量范数的适应性,即使损失向量序列乘以任意正常数,我们的算法仍会做出完全相同的决策。我们的算法适用于任何有界或无界决策集。对于无界决策集,这是第一个真正自适应的在线线性优化算法。
Feb, 2015
该研究提出了一种新的在线学习算法,即广义隐式 FTRL,该算法扩展了 FTRL 框架的范围,可恢复已知算法,设计新的更新规则,直接改善遗憾的最坏情况的上界。
May, 2023
本文通过引入新的后悔分解和 Bregman 散度的泛化来对在线学习的两个算法进行分析,得出了较为简洁的结论,提出了对于复合目标的算法,并提供了一种细化的算法族。
Sep, 2017
介绍了一种与特征尺度无关的在线学习算法,证明了存在依赖于数据中存在的比例而不是绝对尺度的遗憾界,从而不需要预处理数据,减少了测试时间和测试空间复杂度,并提高了算法的稳健性。
Aug, 2014
本研究解决在线学习中的参数调整问题,提出用于线性模型的算法,使其预测结果不受特征缩放的影响,并且在保持运行时性能的同时达到与使用最优学习率的 OGD 算法相同的遗憾界限。
Feb, 2019
研究了在线学习算法中的 Follow the Leader (FTL) 算法,证明在一定条件下即使未必为凸损失函数时,其仍可以表现出与曲率相似的性能,同时可以在保证最坏情况下得到良好的结果。
Feb, 2017
该研究探讨了马尔可夫决策过程中的无标度学习问题,提出了一个通用的算法框架(SCB),并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架,从而实现了无标度对抗性多臂赌博机的首个鲁棒(最小化)期望遗憾上界和首个高概率遗憾上界,并产生了第一个具有 $\tilde {\mathcal {O}}(\sqrt {T})$ 高概率遗憾保证的无标度强化学习算法。
Mar, 2024
研究基于非凸损失的在线学习问题,证明了经典的 Perturbed Leader 算法在该设置下可达到最佳遗憾率,进一步证明乐观的 FTPL 算法在序列损失可预测时的遗憾界更优。
Mar, 2019
我们通过设计新的正则化技术,并将其与未经验证的未来成本预测相结合,实现了自适应于环境的 Non-stochastic Control 算法,这些算法通过考虑系统的内存具有新的数据自适应策略回归界限,并能在准确预测时收缩,即使全部失败时仍保持次线性。
Oct, 2023