- ICML在线强化学习中一般覆盖条件在有效函数逼近中的可证明优势
本研究聚焦于在线强化学习中,使用一定的覆盖条件能够确保样本高效,通过挖掘更多的覆盖条件,研究了其在提高样本效率方面的潜力和效用,进一步证明使用覆盖条件能够实现在线强化学习的高效性,包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息 - 局部约束策略优化用于非平稳输入驱动环境的在线强化学习
该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略,利用本地约束策略优化(LCPO)来优化当前经验,基于旧经验进行策略衔接,有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证,结果表明,它在在线设置下优于最先进 - 通用策略映射:仿生昆虫大脑的在线连续强化学习
我们基于昆虫大脑开发了一种在线连续或终身强化学习模型,该模型通过离线训练特征提取和公共通用策略层,实现了 RL 算法在在线环境中的收敛,而在任务之间共享通用策略层则导致了积极的反向迁移,这为资源受限场景下的高效在线 RL 提供了途径。
- 自适应系统在线强化学习决策解释
提出了一种结合两种可解释强化学习技术的方法,名为 XRL-DINE,可用于解释具有设计时间不确定性的自适应系统中的 Deep RL 决策。
- 在线强化学习中覆盖率的作用
该论文研究覆盖条件在离线强化学习中的作用,并通过建立覆盖条件与在线强化学习之间的联系,证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外,提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。
- 在线稳定强化学习框架
本篇论文介绍了一种将在线增强学习与经典控制的元素(基于 Lyapunov 稳定性理论)进行结合的方法,可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力,并通过实验研究证明了该方法的有效性。
- PAC 强化学习用于预测状态表示
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中 - 数字干预强化学习算法设计:实施前指南
该研究介绍了如何使用预测性、可计算性和稳定性(PCS)框架设计在线强化学习算法来个性化数字干预,提供了指南并展示了如何在模拟环境中评估候选算法,以加强现实时间限制和用户动态环境的稳定性,从而在 Oralytics 项目中改善用户的口腔健康, - 离线强化学习用于 1 型糖尿病患者血糖更安全的控制
本文评估了离线强化学习方法,用于开发临床有效的药量策略,通过对 UVA/Padova 血糖动力学模拟器内的九个虚拟患者的血糖控制进行了研究,发现离线强化学习可以显著提高健康血糖范围内的时间,而不增加低血糖事件。
- ICML最大状态熵探索中的非马尔可夫性的重要性
该研究基于最大状态熵的探索框架,讨论了在有限的样本情况下,非马尔科夫探索的重要性,并提出了基于非马尔科夫确定性策略的新目标,并证明了标准马尔科夫策略的劣势,建议未来的工作将注重如何在可接受的复杂度下找到一个最优的非马尔科夫策略,从而提高在线 - 在线注意力核强化学习
本文提出了一种在线注意力核在线学习算法 (OAKTD),使用核模型的基值函数来评估价值函数,其中利用到了稀疏表示和注意机制,通过实验评估发现 OAKTD 在一些公共任务上优于其他在线 Kernel-based Temporal Differ - MADE: 探索性能通过最大化未探索区域的差异
针对在线强化学习中高维稀疏奖励问题,提出一种新的探索方法,通过最大化下一个策略区域探测点的占用偏差,引入自适应正则化项平衡探索和开发,得出一种内在回报函数,可以轻松地与其他现有强化学习算法结合实现探索,实验结果表明,在 MiniGrid 和 - 通过后验采样的随机最短路径模型在线学习
该研究提出了一种基于后验采样的在线强化学习算法,即 PSRL-SSP,用于解决短路径问题,该算法只需要先验分布的知识,并且具有贝叶斯后悔界,是首个这样的后验采样算法,并在数值上优于之前提出的基于乐观主义的算法。
- 在线稀疏强化学习
在稀疏线性马尔可夫决策过程中,通过引入一种新的算法 - Lasso fitted Q-iteration, 通过一个具有一定条件的数据策略,以几乎无维度代价实现对在线强化学习的降低,但线性后悔在常用政策情况下仍然无法避免。
- 一种可证明有效的强化学习样本采集策略
本文提出了一种解决在线强化学习中勘探 - 利用问题的解耦方法,其中包括一种目标特定的算法和一种负责尽快生成预定样本的目标不可知的样本收集方法,并且利用这种方法在不同领域获得了增强的样本复杂度保证。
- 用最优后悔学习在度量空间中控制
探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题,提出了一种基于上置信强化学习的 Q 函数的乐观估计算法,证明了算法的性能界限和下界。
- Doubling Tricks 对多臂老虎机能做什么,不能做什么
研究在线强化学习算法中的任何时间算法以及倍增技巧,为了在广泛的情境中证明几何变倍技巧可以用于保留某些遗憾边界,但无法保留分布依赖边界,而指数倍增技巧可能更好,因为它们保留了 R_T = O(log T)的边界,并且接近于保留 R_T = O - AAAI快速和安全策略改进的多样化探索
本文提出一种新的探索策略 —— 多样性探索(DE),通过学习和部署一组多样性的安全策略来探索环境,从而实现在线强化学习领域中快速并安全地改进策略,通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。
- 随机博弈中的在线强化学习
本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG,在同类算法中取得了更好的效果,可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态,提高了博弈的竞争性能。