针对限价订单簿动态的逆强化学习研究
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成 MDP 和转移学习任务上都得到了改进。
Apr, 2016
该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法,可在少量演示情况下学习复杂的奖励结构,并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架,可进行特征空间的近似贝叶斯处理,并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证(“物体世界”、“高速公路驾驶”)以及新的基准测试(“二进制世界”)。
Dec, 2015
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度,同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略,该方法在几个已知领域上优于现有的逆向强化学习算法。
Nov, 2023
本文提出一种深度逆强化学习框架,使用狄利克雷过程的工具,通过无标签专家示范学习先前未知的多个非线性奖励函数,同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理,我们将其建模为潜在意图分布的混合,并提出两种算法来估计深度奖励网络的参数和专家意图的数量。
Jul, 2021
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018