- ICML因果型赌博机:适应性的帕累托最优前沿,相对于线性赌博机的简化以及对未知边际分布的限制
本文研究了多臂赌博问题中适应因果结构的问题,探讨了条件性有利结构和任意环境中学习性能的权衡关系,并通过将问题转化为线性赌博设置,首次获得了因果赌博的实例相关界。
- 黑盒预测优化的渐近最优遗憾
考虑了预测 - 优化模式的决策制定方法,通过在历史数据上训练监督学习模型,再利用该模型在新环境中进行未来的二进制决策以最大化预测奖励,提出了一种新的损失函数 Empirical Soft Regret (ESR) 来显著改善模型训练中的奖励 - 线性二次系统控制的全自适应保证后悔算法
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为 O (√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
- 在线牛顿方法在博弈凸优化问题中的应用
零阶强化学习的计算方法在对抗性和随机性设置中的性能界限及其与维度的关系
- ICML最佳批处理线性赌臂机
通过引入 E$^4$ 算法以解决批量线性赌博问题,本文证明在适当的探索速率下,E$^4$ 算法在有限时间内实现了有界的最小化遗憾,并随着时间趋于无穷实现了渐近最优的遗憾,同时也获得了渐近最优的批量复杂度。
- 通过懒惰算法实现私密在线学习
我们研究了私密在线学习的问题,特别是专家预测(OPE)和在线凸优化(OCO)。我们提出了一种将惰性在线学习算法转化为私密算法的新方法。我们通过使用现有的惰性算法解决这些问题,将我们的转化应用于差分隐私 OPE 和 OCO。我们的最终算法在高 - 完全无约束的在线学习
我们提供了一种在线学习算法,可以在不知道 G 或∥w∗∥的情况下,获得在 G-Lipschitz 凸损失函数上的遗憾 G∥w∗∥√(Tlog (∥w∗∥G√T)+∥w∗∥^2+G^2),这与具有此类知识的最佳界限 G∥w∗∥√T 匹配(除了 - 流式随机多臂赌博机中的记忆 - 遗憾权衡理解
在 $P$ 次流式模型中研究随机多臂赌博机问题,通过设计一种算法,给出了关于 $m,n$ 和 $P$ 的最优遗憾度量的完整刻画,同时提出了一个上界和下界,结果在 $n$ 和 $P$ 方面具有紧密性。
- 多类别 U 校准误差的最优解与进一步
在线多类别 U 校准问题:解决了 Kleinberg 等人提出的开放问题,证明理想的 U 校准误差是 Θ(√KT),并在损失函数的自然假设下加强了结果,包括利普希茨损失函数的 Θ(log T) U 校准误差,可分解损失函数的 O (log - 可证明高效的无限时间平均回报线性 MDP 的强化学习
设计了一个计算有效的算法,通过将平均奖励设定近似为折扣设定,并且在适当调整贴现因子时,通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
- 具有半绑定反馈的随机在线一致预测
通过修改模型输出一组标签而不是单个标签,符合预测已成为一种可行的不确定性量化策略。在在线学习设置中,我们考虑了半强盗反馈,其中只有在真实标签包含在预测集中时,我们才能观察到真实标签。我们提出了一种针对这种情况的新颖符合预测算法,并证明它相对 - 多类别分类中的强盗信息真实价格
经作者研究,本论文主要探讨基于强化学习反馈的多类别分类问题,特别关注类别数量 K 对于 T 步的后悔度上界是否能够超过现有算法的√(KT) 依赖性,作者提出了一种新的分类算法以获得对于适度大小的假设类别集合维度的后悔度结果 O (|H|+√ - 具有对抗约束的在线凸优化的严格界
有关在线凸优化和约束在线凸优化的一篇研究论文,证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规,通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合,达到了这一结果。
- 无限时间段折现决策过程的汤普森抽样
我们通过建立一个马尔可夫决策过程模型,研究一种名为汤普森采样的采样算法的渐近行为。我们展示了标准(期望)遗憾可能呈超线性增长,并且不能很好地捕捉到在具有非平凡状态演进的现实情况下的学习概念。通过分解标准(期望)遗憾,我们提出了一种新的指标, - 非精确多臂赌博机
我们引入了一种新颖的多臂赌博问题框架,其中每个臂与一个固定的未知置信集相关联,覆盖了结果空间(可以比奖励更丰富)。臂 - 置信集对应关系来自已知的假设类。我们定义了一种与这些置信集定义的下概率相对应的遗憾概念。等价地,这个设置可以被视为一个 - IJCAI协同进化和赌博学习算法的浓度尾部限制分析
本文研究了随机算法(如演化算法和贝叶斯算法)的运行时间以及寻找问题解决方案之前所需的迭代次数,并提供了一个新的漂移定理,给出了在正、弱、零甚至负漂移情况下的精确指数尾界,用于证明 AI 算法的运行时间高度集中在最优解上,同时指出了 RLS- - 关于 UCT、AlphaGo 及其变种的超指数遗憾
改进 Coquelin 和 Munos(2007)的证明,证明了在 D 链环境上,UCT 算法可能导致指数级(D 的指数次)的遗憾,且具有与指数 2 的指数 2 减去 O (log D) 成正比的多项式的 UCT 变体在相同环境上也可能导致 - $ε$- 在线定价的策略梯度
该研究论文结合了基于模型和基于模型的强化学习方法,提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤,并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的 - 在风险敏感的多智能体强化学习中驯化均衡偏差
我们研究了在一般和马尔可夫游戏中,多智能体强化学习中的风险敏感问题,其中智能体通过强化学习最大化奖励的熵风险衡量,并且可能具有不同的风险偏好。我们表明,使用现有文献中直接从后悔中获得的波动作为性能指标可能会导致存在偏差的策略,偏好最敏感风险 - 上下文决斗赌徒的良好感知汤普森抽样
提出了适用于线性上下文对抗性对决带的一种名为 FGTS.CDB 的汤普森抽样算法,最小化遗憾,并在合成数据上证明比现有算法表现优秀。