ICLRNov, 2021

离线神经情境臂:悲观、优化和泛化

TL;DR本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。