- 重尾臂赌博机中实现全自适应遗憾最小化
学习重尾分布下的遗憾最小化问题,引入自适应算法并提供适应性鲁棒 UCB 方法,以最小化重尾 MAB 问题的遗憾。
- 聚类多智能体线性赌博
研究了多智能体线性随机赌博问题的特定情况,称为聚类的多智能体线性赌博。提出了一种新颖的算法,在多个智能体之间有效合作以加快整体优化问题。通过在合成数据和真实数据上与最先进的算法进行经验评估,理论分析了后悔最小化问题和聚类质量,证明了我们方法 - 线性最佳臂识别中的安全性价格
介绍了具有线性反馈的安全最优臂识别框架,代理受到一些在未知参数向量上线性相关的逐阶段安全约束的限制,代理必须以保守的方式采取行动,以确保在每一轮中不违反安全约束的概率较高。提出了一种基于间隙的算法,实现了有意义的样本复杂度,同时确保逐阶段的 - 线性马尔可夫决策过程的速率最优策略优化
在线循环线性马尔可夫决策过程中的遗憾最小化与策略优化方法相关联,并且在随机情境下使用自调整速率达到最佳收敛速度,为该领域建立了最佳收敛速度的算法。
- 一种高效的在线凸优化内点方法
在线凸优化中一种新的遗憾最小化算法被描述,该算法具有良好的遗憾界限和适应性,并与内点算法在运行时间上相匹配。
- 透明度在重复的未知估值一次报价拍卖中的作用
在单个竞标者对序列中的第一价格拍卖的后悔最小化问题中,我们通过完全特征化拍卖的透明度与极小极大后悔之间的关系给出了拍卖环境和竞标者估值之间的各种假设下的最小后悔率。这些极小极大比率揭示了透明度与环境性质之间相互作用对于在第一价格拍卖中学习如 - 比例响应:用于简单和累积遗憾最小化的情境赌博机算法
提出了一种新的基于上下文 Bandit 算法的族群,利用 “保序手臂集” 提供每个上下文的一组手臂,覆盖了上下文特定的最优手臂,在简单遗憾最小化和累积遗憾最小化方面都有优异表现。
- ICML局部差分隐私下伯努利奖励的汤普森抽样
本文研究了带本地差分隐私保证的多臂老虎机问题的遗憾最小化问题。作者提出了三种机制,分别为线性,二次和指数机制,并推导了每种机制下 Thompson Sampling 算法的随机遗憾边界。最后,本文通过模拟证明了不同机制在不同隐私预算下的收敛 - 可上下文化的随机臂赌博机
介绍了一个在上下文赌博问题中近似最优样本复杂度,并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。
- 多保真度多臂赌博机再访
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为 BAI 提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
- 多平台广告市场中使用非 IC 拍卖的预算管理
本文提出了一种针对在线广告买卖市场的方法,以最大化广告主的总实用效益且满足预算限制,解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题,并对在线出价的情况进行了调查,算法在完全信息情况下的拍卖后悔为 $O (T^{3/4 - ICML单次遍历流式多臂赌博机的严格遗憾界
本文解决了多臂赌博机模型 (single-pass MABs) 中的 regret minimization 问题,并设计出一些具有不同 memory 复杂度的算法分别达到了不同的最优 regret 上界,并且通过实验取得了较好的效果。
- ICML带有重尾奖励的差分隐私情节强化学习
本文研究了固定时限表格式 Markov 决策过程在差分隐私约束下进行带有重尾奖赏的问题,提出了两种面向重尾 MDPs 的框架,并探讨了 JDP 和 LDP 模型在两个框架下的后悔上限。
- 有期半马尔科夫决策过程中基于期权的遗憾最小化算法分析
本文研究如何使用分层强化学习来解决复杂任务中规划时间过长的问题,并提供了关于时间抽象的上界,指出通过分层结构可以降低时间抽象,提高学习性能。在此基础上,本文重点探讨选项框架下可用选项的平均持续时间对规划时间和遗憾的影响,并放松了预先训练选项 - 基于事后校正的分支学习算法用于带未知参数约束的预测优化问题
该论文提出了一种利用机器学习和约束优化相结合的方法来解决包含在求解时未知参数的优化问题。通过引入损失函数后验后悔来处理包含约束的未知数值,该方法首次提出可以精确计算后验后悔以解决原来只能使用估计算法的问题,并在大量实验中成功优化了针对线性规 - MAC-PO: 基于集体优先级优化的多智能体经验回放
通过优化采样权重,将优先经验回放应用于多智能体强化学习 (MARL) 中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。
- AAAI具有不确定情节长度的在线强化学习
研究了应用于随机 episode 长度的模型下的强化学习框架,设计出相应的 regret 最小化的强化学习算法,并用于价值迭代算法在网格环境下的对比。
- 对抗性在线多任务强化学习
在此篇文章中,我们考虑对抗性在线多任务强化学习设置,每一次多任务中学习者需要在未知的有限数量 K 的 MDP 模型中,在有限的时间内学习到最优策略并减小遗憾值。我们提出了一种将模型从众多任务中分离开来的方法,并证明了任意学习算法的遗憾下界为 - HSVI 能够解决零和部分可观察随机博弈
通过数学分析并且创新引入 HSV1-like 算法解决动态规划问题,其优于现有的线性规划和迭代方法。
- ICML基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。