Jun, 2021

使用通用价值函数逼近进行强化学习中的随机探索

TL;DR提出了一种无模型强化学习算法,由于乐观原则和最小二乘价值迭代算法的启示,通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索,在估计乐观值函数的同时引入了一种乐观的奖励采样过程,并证明了当数值函数可由函数类 \mathcal{F} 表示时,该算法实现了最坏情况下的遗憾度量边界,并在已知的难度探索任务上进行了实证评估。