BriefGPT.xyz
Ask
alpha
关键词
data imperfections
搜索结果 - 1
RILe: 强化模仿学习
RILe 是一个学生 - 教师系统,通过根据学生的表现和与专家演示的一致性动态调整奖励函数,实现对不完美数据的鲁棒性,并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。
PDF
24 days ago
Prev
Next