BriefGPT.xyz
大模型
Ask
alpha
关键词
trajectory-based value estimation
搜索结果 - 1
ICLR
带有不完美在线演示的保护策略优化
本文介绍了一种名为 Teacher-Student Shared Control (TS2C) 的离线增强学习算法,该算法基于轨迹价值估计,在保证安全性的同时,有效地控制了探索过程并成功地将不同性能水平的教师智能体纳入学生智能体的训练。
PDF
a year ago
Prev
Next