- 上下文组合式波段臂策略在协商中的应用
提出了一种综合的公式,通过利用上下文组合多臂赌博机来解决对话中的各种问题,包括探索与开发困境和处理大范围行动空间。通过 NegUCB 方法,在回报函数没有约束的情况下,解决了部分观察和复杂回报函数的常见问题,并在三个对话任务上进行的实验证明 - 基于延迟反馈的预算推荐
在有限的资源和延迟反馈的情况下,研究了延迟反馈对约束上下文多臂赌博问题的影响,并开发了一种决策策略(DORAL),以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。
- 强化学习和交互决策的基础
这篇论文采用统计学的角度对强化学习和互动决策的基础进行了概述,提出了一个统一的框架来解决探索与利用的困境,同时使用频率学派和贝叶斯方法,并通过监督学习、估计和决策之间的联系和相似之处作为一个主题展开。特别关注于函数逼近和灵活的模型类别,如神 - 强化学习通用函数逼近的近乎最优低切换算法
我们提出了新算法 MQL-UCB,通过探索 - 利用困境实现了具有函数逼近的强化学习,解决了切换策略的成本和函数类复杂性的问题,同时在历史轨迹中利用了高数据效率,实现了最小化遗憾和最优切换成本。
- 通过潜在地标图在分层强化学习中平衡探索与利用
通过动态构建潜在标志图 (HILL) 学习潜在目标表示,以解决 GCHRL 中的时间连贯性和探索与利用之间的平衡问题,并通过同时考虑节点和边的新颖性和效用度量开发了平衡探索与利用的子目标选择策略。
- 高效勘探 - 开发策略的近似信息
本文提出了一种新方法,“近似信息最大化(AIM)”,通过使用熵梯度的解析逼近来选择每个时刻要拉哪个臂,从而解决了决策中固有的勘探 - 利用困境,实现了与 Infomax 和 Thompson 抽样相当的性能,同时提高了计算速度,确定性和易处 - 多智能体 Q 学习动态的渐近收敛与性能
本论文研究了探索 - 利用困境下的平滑 Q 学习动态,并提出了一个探索速率的充分条件,使得该方法在任何游戏中都能收敛到唯一的均衡,这一结果适用于权重势博弈和权重零和多矩阵游戏。论文还比较了 Q 学习动态和实现均衡所能达到的社会福利,提供了一 - 带虚拟协助代理的汤普森抽样
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
- 线性奖励塑造的乐观好奇探索和保守利用
该研究探讨了在基于价值的深度强化学习过程中的奖励构造,并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点,建立了一套实现快速收敛的解决方案。
- ICMLMeta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度
本文提出一种新方法 Meta-SAC,基于 Soft Actor-Critic (SAC) 算法,使用元梯度及元目标来自动调整熵温度,以平衡任务原始奖励与策略熵,从而解决了探索利用困境的问题,并在 Mujoco 基准测试任务中达到了令人满意 - ICML基于核的强化学习:有限时间分析
本文提出了一种基于核变量的乐观算法 Kernel-UCBVI,以及使用平滑核估计 MDP 奖励和转移的方法,以在探索和开发之间有效平衡,从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中,本文通过实验验证了该方法。
- 有限马尔可夫决策问题中的勘探 - 利用
本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明 - 目标导向的强化学习中的无悔探索
本研究中,我们针对没有固定假设的广义 SSP 问题,提出了第一个无悔算法 UC-SSP,并且证明了它在任意未知 SSP 上的后悔上界,该后悔上界与状态数 S、动作数 A、代价和 SSP 直径 D 有关,同时引入了一套新的停止规则,用以中断当 - 随机最小二乘值迭代的频率后悔界
本研究讨论了有限时间内强化学习中的探索和开发困境,并引入了基于乐观初始化的随机最小二乘值迭代算法来解决维度过大或连续状态下的情况。该算法的频率上界误差为 O (d^2 H^2 sqrt (T)),为带有函数逼近的随机探索的首次频率后悔分析。