online rl | BriefGPT - AI 论文速递

关键词online rl

搜索结果 - 7

顺序任务设置中最小化局部遗憾的谬误
强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。
PDF4 months ago
使用软自我生成指导学习多样化策略
通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现
PDF5 months ago
当下样本独立时，瑕疵无关的增强学习何时具有统计追踪性？
我们研究了对所有政策类 Pi 进行不可知 PAC 强化学习问题：在与一个未知的具有潜在庞大状态和动作空间的 MDP 交互的情况下，需要多少轮才能学习到相对于 Pi 的 epsilon - 次优政策？为此，我们引入了一种新的复杂性度量，称为生
PDF9 months ago
利用离线数据进行在线强化学习
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL
PDF2 years ago
线性奖励塑造的乐观好奇探索和保守利用
该研究探讨了在基于价值的深度强化学习过程中的奖励构造，并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点，建立了一套实现快速收敛的解决方案。
PDF2 years ago
何时信任你的模拟器：动态感知的离线与在线混合增强学习
本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供
PDF2 years ago
策略微调：连接高样本效率离线与在线强化学习
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习，提出了一个新的策略微调问题 —— 在线 RL 中，学习者在某种意义下可以接近最优策略，并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在
PDF3 years ago