May, 2023

来自真实多智能体演示的强化学习中的自适应动作监督

TL;DR本文提出了一种自适应动作监督的 RL 方法,通过动态时间规整的最小距离选择 RL 真实世界演示中的动作,使得 RL 模型能够在网络空间获得回报