- 关于连续时间在线学习的一点备注
连续时间模型中,我们提出了在线学习问题的连续时间算法,并给出了最优遗憾界的简明证明。
- 优化自适应在线学习的精细离散化
我们研究具有 Lipschitz 损失的无约束在线线性优化问题,提出一种新的连续时间启发式算法,通过连续时间模型和离散时间对偶的方式实现渐进的梯度自适应和比较器范数自适应,克服了传统方法中梯度方差的缺陷并消除了未知 Lipschitz 常数 - 面向有约束 MDPs 的无痛政策优化
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始 - 对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和 Cartp - ICML基于 PDE 的无约束在线学习最优策略
通过解偏微分方程生成新的势函数,得到一种新的算法,该算法的任何时候的失误上限达到了最佳损失后悔权衡,且避免了不实用的加倍技巧。
- 不可能的调整变得可能:一种新的专家算法及其应用
基于镜像下降和加权熵正则化器的算法解决了 expert problem 的问题,同时适用于 Online Linear Optimization,能够生成新的结果。
- 带多个提示的在线线性优化
本文研究一种在线线性优化问题,其中学习者在每一轮进行决策之前可以访问 K 个 ' 暗示 ' 向量。本文设计了一种算法,可以在存在带有成本向量正相关性的 K 个暗示的凸组合时获得对数后悔,这显著扩展了以前只考虑 K=1 情况的相关工作。为了实 - ICML在线学习与不完美提示
本文提出了一种算法来处理在线学习问题,该算法能够提高在线参与者的表现并创造出令人惊讶的后果,同时也是前人算法的改进。
- NIPS高效使用近似算法的在线线性优化
本文讨论在线线性优化问题,考虑可行操作集通过近似线性优化预言机具有 α 乘性逼近保证的情况,给出了新算法并提出了显著改进甚至多项式对数的预言机复杂度,同时得到了常数 c>0 的 alpha 遗憾界。
- ICML在线学习的差分隐私代价
本文提出了一种确保差分隐私的在线线性优化算法,其完全信息情况下的后果与 epsilon 无关,但在轮盘线性优化和非随机多臂匪徒的情况下,其遗憾上限是一个 $ ilde {O}$ 函数,同时使时间复杂度在 $\tilde {O}(\frac - 加密币赌注与无需参数的在线学习
该研究在 Hilbert 空间中,通过预测对手行为的赌博机制构建了一种简单的无需调参数的学习算法,用于在线线性现行优化和专家建议学习,实现了优质的后悔约束和分析复杂度。
- 无尺度在线学习
本文设计并分析了一种不需要任何上限或下限的在线线性优化算法,实现了适应损失向量范数的缩放不变性,并且通过 FTRL 和 MD 元算法实现了最优遗憾,并为无界决策集开发了一种非真空遗憾绑定的自适应算法,并对基于 MD 的无标度算法在无界域上的 - 在线线性优化的无标度算法
我们设计了一种在线线性优化算法,其具有最佳的遗憾度,并且不需要知道损失向量范数的上界或下界。通过尺度不变性,我们实现了对损失向量范数的适应性,即使损失向量序列乘以任意正常数,我们的算法仍会做出完全相同的决策。我们的算法适用于任何有界或无界决 - 希尔伯特空间下的无约束在线线性学习:极小极大算法和正规近似
研究在线 Hilbert 空间中的线性优化算法,提出了一种新的最小化最大算法,推导出两种情况下的遗憾界,并使用正态近似作为关键分析工具。
- 面向未知时间范围的极小极大在线学习
在未知时间的在线学习中,我们应用最小二乘分析,提出了一种新的自适应算法,该算法可以应用于在线凸优化,追随摇摆的领导者,指数权重算法和一阶界,实验表明在在线线性优化方面,我们的算法表现优于许多其他现有算法。
- 可预测序列的在线学习
本文提出了一种基于可预测过程的在线线性优化算法,该算法利用了良性序列的先验知识来提高性能,并扩展到模型选择和时间序列预测领域,具有较好的应用潜力。
- 在线组合优化中的遗憾
本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔,探讨了决策者在不同反馈条件下的最优反悔幅度,并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案,获得了半强盗情形的最优界限,同时也证明了在线组合优化基准算法的次 - 组合式预测游戏的极小化策略
我们研究了在线线性优化问题,探讨了半强盗、强盗和完全反馈三种情况下的极小后悔量,并提出了使用 Bregman 投影技术的梯度下降通用策略以及上下界解决方案,并在最后指出了指数加权平均预测者对于 L∞对手是次优解的问题。
- 黑韦尔可到达性与低遗憾学习是等效的
本文证明了 Blackwell 可接近性定理在具有向量回报的两人博弈中的等效性,并且提出了计算校准预测的第一个有效算法。