连贯的软件仿真学习
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
该论文提出了一种简化的能量基模仿学习(EBIL)框架,该框架使用分数匹配来估计专家能量,然后使用其作为强化学习算法中的奖励来学习策略,以实现与目前现有算法相当的性能水平。
Apr, 2020
提出了 EfficientImitate 这一基于规划的模仿学习方法,成功地将两类看似不兼容的模仿算法:行为克隆和对抗模仿学习,自然地统一到了一个框架中,实现了在性能和样本效率方面的高水平。
Oct, 2022
本研究提出了一种名为 ORIL 的方法,用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号,通过增强学习来训练机器人,相对于传统的基于行为克隆的方法,它能更好地利用未标记的经验数据,提高训练的效果。
Nov, 2020
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
提出了一种新的模拟学习元算法 IMPLANT,利用决策时间规划来纠正模仿策略的复合误差,从而实现比基准模仿学习方法更好的实验效果,在挑战性测试时动态运行。
Apr, 2022