- 从未知奖励的演示中学习安全约束
该研究提出了凸约束学习用于强化学习的方法,该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程(CMDP)中的约束。与以往的方法不同,该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集,从而保证安全性 - ICML加权记分贝叶斯多臂老虎机算法:通过重复曝光优化解决计算难题
研究了一个权重计数的赌博算法,其中动作损失与最近 $m$ 个时间步骤中该动作被播放的次数的加权求和有关,并引入了 “重复暴露最优性” 的条件来最小化完备策略遗憾,提出了简单的修改后的连续消除算法,并对其进行了理论和实验分析。
- ICML拥塞贝叶斯:通过短期重置实现最优路由
该研究针对交通路线推荐问题,提出了基于拥堵信息的多臂赌博机和上下文赌博机算法,并通过仿真实验证明了算法的无后悔性。
- 在最大化收益的同时减少不平等:改进赌博算法的紧密任何时刻保证
研究改进多臂老虎机(IMAB)问题在未来奖励不确定的情况下,如何使决策者在考虑潜在长期回报时最大化当前累计奖励,并提出了一种算法来解决此问题,并证明其近似最优。
- IJCAI具有复合匿名延迟反馈的有界内存对抗性赌博机
本研究探讨了具有复合匿名延迟反馈的对抗性赌徒问题,证明了非遗忘环境下会发生伪遗憾现象。但我们提出了一个包装器算法,在某些对抗赌徒问题上获得了 o (T) 策略遗憾。尤其对于 K-armed bandit 和 bandit 凸优化问题,我们的 - 计数型赌博机的完整策略遗憾界
研究了限制对手策略的措施,旨在实现最强版本的策略后悔,即完全策略后悔。提出概念式为 “计票老虎机” 的在线学习算法,并针对该算法提供了一种具有可接受保证的算法,证明了算法的近似最优性。
- IJCAI通过政策遗憾来解决机器学习决策的长期影响
本文研究机器学习对于个人与社区在借贷、教育、就业等方面分配机会的影响,并通过模拟长期发展并结合政策后悔的方法提出了一个可行的次线性方案,以考虑不同分配决策的潜在增长性。
- AAAI在线优化控制及仿射约束
该论文研究了在线最优控制问题,提出了一种基于 OGD-BZ 算法的解决方案,并分析了该算法的策略遗憾问题。
- LQR 控制中线性控制器的威力
本研究在考虑受环境噪音干扰的线性动态系统调节问题中,计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述,并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛,即使在噪声被选择的情况下。
- 重复博弈中的政策后悔
本文重新审视了在线学习中的策略后悔问题,表明在某些情况下,外部后悔和策略后悔是不兼容的,而在自利智能体领域,如果使用某些算法,则可以保证外部后悔和策略后悔都是有利的。本文还介绍了一个新的均衡概念 —— 策略均衡,并表明粗略相关均衡是策略均衡 - 来自显式偏好的战略分类
研究在线线性分类问题,应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好,提供一个计算有效的学习算法,获得减小的 Stackelberg 后悔以近似于最佳分类器。
- ICML面向自适应对手的在线强盗学习:从遗憾到策略遗憾
该论文提出了当对手可以适应在线算法的动作时,标准遗憾定义变得不再有效,定义了替代的政策遗憾概念,用于测量在线算法在适应性对手下的性能,并研究了在线赌徒问题的情况,表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾,但同时