本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法,通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分,提高了价值估计的准确性,并在 OpenAI Gym 连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。
Mar, 2021
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
提出了一种基于强化学习的数据估值元学习框架,可以同时学习数据价值和目标任务预测模型,能够在不同类型的数据集和应用场景中,显著提高数据价值估计精度,并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。
Sep, 2019
通过对价值改善路径的整体近似,以增强价值函数逼近能力,提出了一种新的价值导向强化学习算法。通过在 Atari 2600 游戏中测试,该算法的性能得到了显著提高。
Jun, 2020
通过数据驱动方法,基于模型预测控制设计了一种改进的强化学习方法,该方法在经典数据库和无人机动态避障场景中实验结果验证了其高学习效率、更快的策略收敛速度以及需要更少的样本容量空间。
Oct, 2023
通过竞争分析的视角,我们量化分析了先见之明的未来回报信息的价值,并且得出了标准 RL 代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布,并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是,所得比率与离线 RL 和无回报探索中的已知数量相关。我们还提供了给定最坏动态情况下的比率的严格界限。我们的结果涵盖了在行动之前观察即时回报到在交互开始之前观察所有回报之间的所有情况。
Mar, 2024
在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通过在需要处理长时间历史的三类基准测试中验证了我们的观点。
Feb, 2024
本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离线 RL 方法。
Nov, 2022
本篇论文提出了基于预测模型,使用历史数据构建的虚拟空间的强化学习模型,能够平衡长期和短期奖励,并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下,我们的方法始终优于现有技术水平。
本文研究基于模型的强化学习中的后悔最小化问题,提出一种基于乐观主义原则和线性混合模型的算法,并推导出一些后悔界的理论结果。