基于数据驱动的批量 $Q^*$ 学习中的知识传递
本文提出了一种算法,通过生成一个小且有效的源子集,以实现在强化学习中的全生命周期,基于策略重用的传递学习,从而代表已经学习完最佳策略的一组 MDP。同时,提出了一个聚类的框架,用于提取源子集,并通过在监控领域的实验证实了算法的有效性。
Nov, 2013
我们研究了一项关于在单一轨迹的时变 Markov 决策过程中一致性和鲁棒性之间的权衡,并给出了给定 Q 值建议下的一种首创性一致性和鲁棒性权衡,其涵盖了连续和离散状态 / 动作空间,并且利用 Q 值建议使得机器学习建议和鲁棒基准的动态追求得以实现,从而提供了近乎最优的性能保证,可明显改善仅依靠黑盒建议所能获得的结果。
Jul, 2023
我们引入了一个新的 HiP-MDP 隐藏参数马尔可夫决策过程的处理方式,它能够通过低维度的潜在嵌入来建模相关任务的家族。我们采用贝叶斯神经网络来替换原模型中的高斯过程,从而使推理更具可扩展性,我们正确地模拟了潜在参数和状态空间中的联合不确定性,并扩大了 HiP-MDP 的应用范围,可以应用于维度更高且具有更复杂动态的问题。
Jun, 2017
本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证,并与传统的迭代方法进行了比较,证明了这些方法可以通过估计贝尔曼误差,仅依靠批数据和输出静态策略的算法,享受与任务无关的线性迭代时间性质。 其中一种算法使用了新颖而明确的重要性加权校正,以克服贝尔曼误差估计中的 “双重抽样” 难题,并且没有使用任何平方损失。 我们的分析揭示了与传统算法相比,其不同的特点和潜在优势。
Mar, 2020
本研究旨在探讨如何设计强化学习代理,通过从之前解决的任务中转移知识,明确减少学习新任务的样本复杂度。具体地,本文关注第二种目标,即当代理具有状态行为对的生成模型时,如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型,并使用谱方法从中恢复其参数。最后,我们在简单的模拟领域中实证了我们的理论发现。
Jul, 2020
通过更新 HiP-MDP 框架并将其扩展到针对艾滋病治疗的个人化医学策略的更健壮的开发,解决由于生理变异而导致的患者对同一治疗方法产生不同的但相关的反应的问题。
Dec, 2016
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
May, 2024
该论文研究利用最近邻回归方法的最近邻 Q 学习算法,从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数,提供了紧密的有限样本收敛速率分析和样本复杂度。
Feb, 2018
该论文研究了一类多智能体马尔可夫决策过程,在其中,网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前,论文探讨了一种分布式强化学习设置,并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏(可能随机)通信网络上的局部处理和信息交流,实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下,提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式,这些技术对独立的利益具有重要意义。
Apr, 2012