Sep, 2022
具有决策估计系数的强化学习统一算法:无遗憾、PAC和无奖励学习
Unified Algorithms for RL with Decision-Estimation Coefficients:
No-Regret, PAC, and Reward-Free Learning
TL;DR本文提出 Decision-Estimation Coefficient (DEC) 作为强化学习(Reinforcement Learning, RL) 中无后悔 RL 的必要和充分的复杂度度量,并提出 Explorative DEC (EDEC) 和 Reward-Free DEC (RFDEC) 作为对 DEC 的扩展,设计了针对三个学习目标的新的统一的样本有效算法。