- ICML最佳批处理线性赌臂机
通过引入 E$^4$ 算法以解决批量线性赌博问题,本文证明在适当的探索速率下,E$^4$ 算法在有限时间内实现了有界的最小化遗憾,并随着时间趋于无穷实现了渐近最优的遗憾,同时也获得了渐近最优的批量复杂度。
- 自适应众包通过自监督学习
利用自监督学习和新颖的聚合机制,just-predict-others 方法在面对具有不同技能水平和相关估计的众包工作者时,比传统的众包系统更能提供准确的群体估计;并通过理论和计算研究验证 just-predict-others 的效力,证 - ICML嵌套消除算法:基于选择反馈的最佳项目识别的简单算法
从基于选择的反馈中最佳项目的识别问题出发,我们提出了一种名为 Nested Elimination(NE)的消除算法,它受到信息论下界所隐含的嵌套结构的启发。NE 在结构上简单且易于实现,并且在样本复杂性方面具有强大的理论保证。特别是,NE - 具有平均奖励的不安定强盗:打破统一全局吸引子假设
本研究提出了一种基于模拟的框架,可以将单臂策略转换成适用于 N 臂问题的策略,并提供了在离散和连续时间框架下的计算上最优结果,且不需要 UGAP 假设。
- 有限时间和流式无休止多臂赌博机问题的高效算法
提出了 “Streaming Bandits” 框架,该框架为不安宁的多臂赌博机问题,其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题,同时提供了一个新颖而高效的算法来计算 Whittle 索引解。
- ICML支持感知 CVaR 赌博机的最优汤普森抽样策略
本文研究一种多臂赌博机问题,其中每个臂的质量是在奖励分布的某个水平 alpha 上通过条件风险价值(CVaR)来测量。我们引入了一种新的 CVaR 赌博机定理的 Thompson Sampling 方法,尤其适用于基于物理资源的问题。我们在 - 适用于非政策评估的极大极小权重和 Q 函数学习
本文探讨了强化学习中的离线评估问题,提出了两种新的重要比率估计器,并给出了样本复杂度分析和渐进优化等结果。
- X - 臂赌博机的多项式适应代价
本文提出了一种自适应算法以应对目标函数的未知平滑度,展示并计算适应于 H {"o} lder 正则性的多项式成本以进行后悔最小化,提供了有限时间分析和关于渐近最优性的彻底讨论。
- 有限时间内动态赌博机渐近最优指数策略
该研究提出了一种基于拉格朗日松弛法的单臂问题集合的无休止多臂赌博机指数策略,利用模拟证明其表现优于现有启发式方法。
- 可扩展渐进最优多机器人运动规划
该研究提出了一种可扩展的多机器人路径规划方法 dRRT*,利用采样基规划器在所有机器人构型空间的复合配置空间中寻找渐近最优路径,实验表明 dRRT * 可以在高维多机器人问题中收敛到高质量路径。
- 异构过程中的主动异常检测
研究了一种检测异质进程中异常的主动推理问题。提出了一种序贯探测策略,动态地确定每个时间要观察哪些进程以及何时终止搜索。提出了一种低复杂度的确定性测试,其渐近最优性与 Chernoff 测试相同,但在有限范围内性能更好,收敛更快,特别是当进程 - 高斯赌博机的 Thompson 抽样策略的最优性取决于先验知识
探讨多参数模型中 normal distribution 模型下 Thompson sampling 算法的优化问题及其 prior 选择的影响
- $QD$-Learning: 一种多智能体强化学习的合作式分布式策略,通过共识 + 创新实现
该论文研究了一类多智能体马尔可夫决策过程,在其中,网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前,论文探讨了一种分布式强化学习设置,并提出了一种分布式版本的 Q-learning 方法 - 主动顺序假设检验
本文提出了两种启发式策略,通过动态规划建立了最优总成本的下界,研究了信息获取率和可靠性的极限,证明了第一个启发式方法的渐近最优性,同时分析了第二个启发式方法在有噪声动态搜索问题中的性能。
- 基于逐步采样的最优运动规划算法
本文介绍了一种新型的算法 —— 快速探索随机图(RRG)及其树形版本 RRT $ ^ * $ 算法,并证明这两个算法都可以在几乎确定地收敛到最优解。此外,文章还建立起采样运动规划算法和随机几何图理论之间的新联系,以证明所提出算法的复杂度与传 - 多臂赌博问题中有限支持模型的渐近最优策略
本文提出最小经验散度并结合凸优化技术的多臂赌博机问题优化方案,在有限支撑模型情况下证明该方案的渐近最优性,并通过实验表明其在有限时间内相对于其他流行方案具有较好的性能。