feasible reward set | BriefGPT

关键词feasible reward set

搜索结果 - 4

如何扩展逆强化学习至大规模状态空间？一种经过验证的高效方法
在线逆向强化学习中，为了改善对奖励函数的估计，学习器可以收集关于环境动态的样本。本文针对在线逆向强化学习问题在线性马尔可夫决策过程中的情况进行研究，介绍了奖励兼容性的新框架，并开发了一种样本高效的算法 CATY-IRL，其复杂度与状态空间的
PDFa month ago
离线逆强化学习：新的解决方案概念和可证明高效算法
逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO
PDF4 months ago
具有次优专家的逆强化学习
给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。
PDF6 months ago
ICML倒置强化学习的理论理解
本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。
PDFa year ago