Oct, 2022

算法蒸馏下的上下文强化学习

TL;DRAlgorithm Distillation 是一种将强化学习算法转化为神经网络的方法,其自动建模训练过程,通过一种因果推断模型来处理本文中的异步外展示学习问题。