连续迁移的聚类马尔可夫决策过程

Nov, 2013

连续迁移的聚类马尔可夫决策过程

Clustering Markov Decision Processes For Continual Transfer

M. M. Hassan Mahmud, Majd Hawasly, Benjamin Rosman, Subramanian Ramamoorthy

TL;DR本文提出了一种算法，通过生成一个小且有效的源子集，以实现在强化学习中的全生命周期，基于策略重用的传递学习，从而代表已经学习完最佳策略的一组 MDP。同时，提出了一个聚类的框架，用于提取源子集，并通过在监控领域的实验证实了算法的有效性。

Abstract

We present algorithms to effectively represent a set of Markov decision processes (MDPs), whose optimal policies have already been learned, by a smaller source subset for lifelong, policy-reuse-based transfer learning in reinforcement learning. This is necessary when the number of prev

markov decision processes transfer learning policy reuse clustering surveillance domain

发现论文，激发创造

从多个 MDPs 转移

本文研究利用源任务采集的经验来加速强化学习算法的传递强化学习方法，介绍了在源任务与目标任务之间相似度的基础上适应转移过程的新算法，并在一个连续链问题中报告了描绘性实验结果。

Aug, 2011

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

具有策略预算的个性化强化学习

个性化机器学习中，我们提出了一种名为 r-MDPs 的框架，通过与一小组代表性策略的交互来满足多样化的用户群体，并同时优化这些策略以最大化整体社会福利。通过两种深度强化学习算法，我们在多个模拟环境中进行了实证研究，展示了这些算法在有限的策略预算下实现有意义的个性化，并具有可扩展性，能够适应更大的策略预算。

Jan, 2024

具有经验共享的分布式多任务强化学习的扩展

本文针对分布式多任务强化学习进行研究，提出了一种名为 DistMT-LSVI 的算法，可以在具有不同任务的环境中学习到针对所有任务的 ε- 最优策略，并通过理论和实验证实了该算法能够显著提高非分布式设置的样本复杂性。

Jul, 2023

深度强化学习用于自适应学习系统

本文提出了一种采用马尔可夫决策过程（MDP）的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略，同时开发了一个转移模型估计器来优化数据利用，实验结果表明该算法在自适应学习领域有着较高的效率。

Apr, 2020

基于数据驱动的批量 $Q^*$ 学习中的知识传递

在数据驱动的决策制定中，通过利用现有企业的大量数据来导航高维特征空间，解决新企业中数据稀缺问题，在动态决策制定中探讨知识转移，并通过马尔可夫决策过程的角度形式定义任务差异，提出了具有通用函数逼近的转移拟合 Q - 迭代算法框架，可直接估计目标和源数据下的最优动作状态函数 Q*，在筛选逼近下，阐明了统计性能与 MDP 任务差异之间的关系，揭示了知识转移的有效性受源样本数量、目标样本数量和任务差异的影响，并从理论和实证上显示，Q * 函数的最终学习误差显著提高于单一任务速率。

Apr, 2024

基于隐含参数马尔可夫决策过程的强健高效迁移学习

我们引入了一个新的 HiP-MDP 隐藏参数马尔可夫决策过程的处理方式，它能够通过低维度的潜在嵌入来建模相关任务的家族。我们采用贝叶斯神经网络来替换原模型中的高斯过程，从而使推理更具可扩展性，我们正确地模拟了潜在参数和状态空间中的联合不确定性，并扩大了 HiP-MDP 的应用范围，可以应用于维度更高且具有更复杂动态的问题。

Jun, 2017

深度反应策略在 MDP 规划中的转移

本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法，通过利用 RDDL 表示中的符号状态配置和转移函数，使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。

Oct, 2018

Lipschitz 历练强化学习

本文探讨了在面对一系列的强化学习任务时知识传递的问题，提出了一种近似的马尔科夫决策过程的优化值函数的方法，通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。

Jan, 2020

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024