Jun, 2024

自信感感知的逆约束强化学习

TL;DR逆向约束强化学习 (Inverse Constraint Reinforcement Learning, ICRL) 领域研究了从离线专家演示中估计约束的算法,并提供了一种基于置信水平对专家演示进行约束估计的方法,使用户可以选择满足期望置信水平的约束进行使用,同时允许用户了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。