Jun, 2020

连续动作下高效的上下文强化学习

TL;DR我们创建了一个计算可行的算法,用于具有未知结构的连续操作的上下文强盗问题,并且它与大多数监督学习表示法相结合,我们证明它可以在一般意义下工作,并通过大规模实验验证了新功能。