BriefGPT.xyz
大模型
Ask
alpha
关键词
expert policy
搜索结果 - 3
基于贝叶斯赌博机的策略不变显式塑形方法,用于融合外部建议的强化学习
该论文提出一种名为 Shaping-Bandits 的多臂赌博问题来解决如何将外部建议纳入强化学习智能体的学习之中,并提出了三种不同的塑形算法,旨在考虑遵循专家策略或默认 RL 算法的长期后果。通过实验验证这些算法在四个不同的设置中实现了所
→
PDF
a year ago
逆强化学习的主动探索
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度
→
PDF
2 years ago
走向模仿学习的基本极限
研究了在马尔可夫决策过程中,即使在给定数据集前提下,模仿专家政策的算法可能会存在次优性,并提出了一种基于最小距离函数的新算法,在确定性专家和已知转移模型的情况下,提高了最小极值速率。
PDF
4 years ago
Prev
Next