Sep, 2022

具有决策估计系数的强化学习统一算法:无遗憾、PAC和无奖励学习

TL;DR本文提出 Decision-Estimation Coefficient (DEC) 作为强化学习(Reinforcement Learning, RL) 中无后悔 RL 的必要和充分的复杂度度量,并提出 Explorative DEC (EDEC) 和 Reward-Free DEC (RFDEC) 作为对 DEC 的扩展,设计了针对三个学习目标的新的统一的样本有效算法。