基于核的强化学习实践
研究了采用非参数高斯过程先验的UCRL和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实MDP的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
MatrixRL是一种在线强化学习算法,可以通过学习概率转换模型的低维表示来缓解维度性的问题,同时可以平衡探索和开发之间的权衡。此算法具有接近于时间$T$和维度$d$(或$ ilde{d}$)稳定性的可能性。
May, 2019
本文提出了一种基于核变量的乐观算法Kernel-UCBVI,以及使用平滑核估计MDP奖励和转移的方法,以在探索和开发之间有效平衡,从而解决了有限时间内强化学习中的探索与开发困境。在连续MDP应用中,本文通过实验验证了该方法。
Apr, 2020
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的Stackelberg博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习(KD-BIRL)的算法,该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境,并在Gridworld环境和虚拟sepsis治疗任务中展示了其优势。
Mar, 2023
该研究提出了一种基于Koopman算子理论的新型重现核希尔伯特空间(RKHS),称为Koopman Kernel Regression (KKR),可以提高预测的准确性和泛化能力,对于以Koopman为基础的预测器,最新的统计学习方法存在限制,所以提供比现有研究更为详尽的证明和更宽松的假设。
May, 2023
针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。
Jun, 2023
我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架,通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题,并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。
Aug, 2023
本研究解决了离线强化学习中标签数据成本高昂的问题,提出了一种利用无标签数据的方法。论文中介绍的算法基于核函数逼近,并提供了理论保证,展现了在标签数据有限时有效利用无标签数据的潜力,可能显著提升离线强化学习的效率。
Aug, 2024