reward-free reinforcement learning | BriefGPT

关键词reward-free reinforcement learning

搜索结果 - 5

ICLR低秩 MDPs 下无奖励强化学习的样本复杂度改进
本文研究了低秩 MDP 模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限，并提出了 RAFFLE 算法，通过无奖励探索可以在样本复杂度显著改善下找到 epsilon - 最优策略和 epsilon - 准确的系统识别。最后
PDFa year ago
ICLR安全探索对无回报强化学习几乎没有额外的样本复杂度负担
本研究提出了一种统一的安全奖励免费探索 (SWEET) 框架，包括 Tabular 和 Low-rank MDP 两个算法，并证明安全约束几乎不会增加 RF-RL 的样本复杂度。
PDF2 years ago
使用线性函数逼近的无奖励模型强化学习
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程，并提出了一种新算法 UCRL-RFE，其中使用线性函数对状态、动作和下一个状态进行特征映射，能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsi
PDF3 years ago
几乎极小化最优无奖学习
研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。
PDF4 years ago
使用线性函数逼近进行无奖励强化学习
在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。
PDF4 years ago