ICLROct, 2021

基于案例推理的文本强化学习通用性改善技术

TL;DR本文提出了一种基于基于案例推理的通用方法来训练代理和实现训练分布之外的泛化,与现有文献中的 TBG 中任何现有的政策神经代理结合使用。实验表明,所提出的方法不断改进现有方法,在广泛使用的环境中获得了新的最先进结果。