off-policy training | BriefGPT

关键词off-policy training

搜索结果 - 8

离线数据增强的有保证的在线策略梯度
融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法，它将基于策略的演员 - 评论家方法与离线数据相结合。理论上，我们的方法在离线强化学习特定假设成立时可以获得最佳结果，同时无
PDF8 months ago
ICLRGFlowNets 和变分推断
这篇文章研究了两种概率算法（层次）变分推断（VI）和生成流网络（GFlowNets）之间的关系。作者发现，在某些情况下，VI 算法等价于 GFlowNets 的特殊情况，但 GFlowNets 比 VI 更适宜于强化学习和多模态目标分布
PDF2 years ago
ICML数据效率高的事后无偏策略选项学习
研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项（HO2），并证明其在现有基准测试中表现优异，结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束，特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。
PDF4 years ago
NIPS数据效率的分层强化学习
本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。
PDF6 years ago
基于离线训练和函数近似的收敛演员 - 评论家算法
我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所
PDF6 years ago
NIPS情感强化时序差分学习的初步实证研究
本文首次实证研究了强调时间差分学习算法（ETD）在 Mountain Car 问题的使用，对比标准的时间差分学习算法，比如线性 TD（0），研究表明在 on-policy 和 off-policy 两种情况下，ETD 算法的收敛效果更好。
PDF7 years ago
强调时序差分学习
该研究概括了近期两个关于强化学习中强调算法的稳定性和收敛性的研究，同时展示了强调算法的灵活性在状态折扣、状态引导和资源分布等方面的经验优势。
PDF9 years ago
一种强调的离线时序差分学习方法
本文介绍了通过有选择地加强或减弱不同时间步骤的更新来改善参数化时序差分学习算法的性能，并且提出了一种新的增强 TD (λ) 算法，相较于之前的方法，它更简单易用，只有一个学习参数向量和一个步长参数，含有状态相关折扣函数和自举函数，并且能够根
PDF9 years ago