Jun, 2020
连续动作下高效的上下文强化学习
Efficient Contextual Bandits with Continuous Actions
Maryam Majzoubi, Chicheng Zhang, Rajan Chari, Akshay Krishnamurthy, John Langford...
TL;DR我们创建了一个计算可行的算法,用于具有未知结构的连续操作的上下文强盗问题,并且它与大多数监督学习表示法相结合,我们证明它可以在一般意义下工作,并通过大规模实验验证了新功能。