May, 2023

来自真实多智能体演示的强化学习中的自适应动作监督

TL;DR本文提出了一种自适应动作监督的RL方法,通过动态时间规整的最小距离选择RL真实世界演示中的动作,使得RL模型能够在网络空间获得回报