ICMLNov, 2020

强化学习中的新动作泛化

TL;DR本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题,首先从任务中获取动作信息来推理动作表示,然后通过泛化目标训练灵活适应不同动作集的策略,在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。