这篇研究论文提出了一种基于信息压缩的强化学习算法,通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能,并在性能、鲁棒性和泛化性方面都有显著提升。
Sep, 2021
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
通过数据驱动方法,基于模型预测控制设计了一种改进的强化学习方法,该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。
Oct, 2023
本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法,可以利用有偏模型,并在模拟控制任务中验证了该算法的有效性。
Dec, 2019
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
通过基于可变分歧最小化的约束重构,估计了马尔科夫链稳态分布的量,提出了一个简单而有效的算法 GenDICE,在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。
Feb, 2020
我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功能和可靠性的方法。最后,我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。
该研究考虑了两种不同的学习方式:模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法,并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题,在模仿学习方面也达到了标准基准任务的最新样本效率。
本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法,发现在高维控制任务中,基于模型的策略评估方法比传统方法更有效。
Aug, 2020