Sep, 2024

可证明有效的逆约束强化学习中的探索

TL;DR本文解决了逆约束强化学习(ICRL)中现有采样策略效率未知的问题。提出了一种具有保证效率的探索框架,并提出了两种算法,通过动态减少成本估计的有界聚合误差和战略性约束探索策略,来实现有效的约束推断。实验结果显示,这些算法在多种环境下表现优越。