关键词reward-free reinforcement learning
搜索结果 - 5
- ICLR低秩 MDPs 下无奖励强化学习的样本复杂度改进
本文研究了低秩 MDP 模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限,并提出了 RAFFLE 算法,通过无奖励探索可以在样本复杂度显著改善下找到 epsilon - 最优策略和 epsilon - 准确的系统识别。最后 - ICLR安全探索对无回报强化学习几乎没有额外的样本复杂度负担
本研究提出了一种统一的安全奖励免费探索 (SWEET) 框架,包括 Tabular 和 Low-rank MDP 两个算法,并证明安全约束几乎不会增加 RF-RL 的样本复杂度。
- 使用线性函数逼近的无奖励模型强化学习
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法 UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsi - 几乎极小化最优无奖学习
研究奖励免费强化学习框架,提出新的有效算法 SS+TP,通过探索和计划两个阶段,分别进行轨迹收集和任意奖励函数优化,达到对多个奖励函数的策略优化。
- 使用线性函数逼近进行无奖励强化学习
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。