- 众多智能体 POMDP 中的分解式在线规划
在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解 - DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法
这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中 - 离线多智能体强化学习的反事实保守 Q 学习
我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进 - 时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数
本文提出了一种在终止后故意低估值以避免由于无意中的高估引起的学习失败的方法,并根据终止时的稳定度调整低估程度,从而防止由于故意低估引起的过度探索。通过模拟和真实机器人实验表明,所提出的方法能够稳定地获取各种任务和奖励设计的最优策略。
- 针对离线强化学习的轻度限制评估策略
本研究提出了一种轻度限制的评估策略 (MCEP),用于测试时推断,并基于 TD3-BC 和 AWAC 算法进行实例化,在 MuJoCo 运动任务上取得了竞争性结果。
- ReLU 拯救:通过正 Advantage 改进你的 On-Policy Actor-Critic 模型
本文介绍了一种用于加强 on-policy 进行深度强化学习(DRL)算法的有效性的新方法,通过在价值函数估计中加入了保守性指标,同时使用 Thompson sampling 来实现谨慎探索,改进了现有算法,从而在多个基准中进行了严格的实证 - RORL: 基于保守平滑的强化学习离线稳健性算法
本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术,用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题,同时还能在性能和鲁棒性上实现权衡,并取得了非常 - 针对离线强化学习的高斯混合评论家的重新访问:一种基于样本的方法
本文介绍了一种新的离线强化学习算法(基于混合高斯的 Actor-Critic 方法),该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制,并在众多挑战性的任务上取得了最先进的性能。
- 离线强化学习的极简主义方法
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
- IJCAI使用信任域方法的平均奖励强化学习
本文探讨了长期平均目标下的强化学习问题,提出了一种统一的信任区域理论和一种名为 APO 的实用算法,该算法可以改进价值估计,并且在大部分任务中表现优于折扣 PPO,提出的框架可能会补充折扣目标的强化学习框架。
- 强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
- AAAI预测与评估:通过潜在未来预测分解价值估计
本文提出了一种名为 “Value Decomposition with Future Prediction” 的强化学习算法,通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分,提高了价值估计的准确性,并在 OpenAI Gym - ICML批量强化学习的指数下界:相比在线强化学习,批量强化学习可能更加困难
本文介绍了在具有线性函数表示的情况下,在折扣无限时间 MDPs 中分别对策略和目标策略的价值进行估计时,即使存在实现性并观察到精确奖励和转移函数以及为问题类提供最佳先验数据分布,也派生出指数的信息论下限,并引入了一个新的 “oracle - 离线策略评估中的统计自举法用于不确定性估计
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
- 价值驱动的后见之明建模
本文提出了利用表征学习中的先验信息直接进行值函数预测的方法,即结合模型学习和模型自由方法的优势,确定哪些未来轨迹特征提供有用信息,从而为任务提供可操作的预测目标,加速值函数的学习。
- ICLR非线性 TD 学习收敛性的几何洞见
本研究旨在推广理论收敛保证到具有非线性函数逼近的 TD 学习,考虑 TD (0) 算法估计值的预期学习动态,使用具有良好几何形状的函数逼近器的集合,证明了在更可逆的环境下 TD 学习的收敛性,同时进行了非线性的收敛和发散案例的探讨。
- AAAIACE: 基于树搜索的连续控制的 Actor 集合算法
该论文提出了一种名为 ACE 的演员集成算法,用于连续控制的强化学习中,该算法使用演员集成来搜索评论者的全局最大值,并利用确定性内部选项策略扩展了选项评论家体系结构来将 ACE 在选项框架中加以说明。通过使用这些演员和一个学习到的价值预测模 - 使用时序差分方法直接估计 λ 返回的方差
本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法,与现有方法相比,其方法更简单且更稳健。
- 双重稳健策略评估与优化
论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
- ICML双重稳健策略评估与学习
在具有上下文情境和目标函数的决策环境中,我们使用双重稳健技术评估新策略,并证明这种方法使价值估计具有较低的方差,且能达到更好的策略,为该领域提供一种有效的方法。