ICLRMar, 2023

带有不完美在线演示的保护策略优化

TL;DR本文介绍了一种名为 Teacher-Student Shared Control (TS2C) 的离线增强学习算法,该算法基于轨迹价值估计,在保证安全性的同时,有效地控制了探索过程并成功地将不同性能水平的教师智能体纳入学生智能体的训练。