May, 2022

基于策略分解的人工智能共享控制

TL;DR本文介绍了一种基于频率的方法(Policy Dissection)用于 Reinforcement Learning (RL) 方法中的人机共享控制,该方法可将 RL 训练过的策略转化为可以与人类互动的策略,并在自动驾驶和动力学任务中进行了实验。