模仿过去的成功可能不是最优的选择
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
该研究论文旨在通过对强化学习,凸优化和无偏学习方法进行研究,提出了一种新方法,即对偶 RL 方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
本文介绍了一种强化学习的算法,可以更加方便地让用户指定任务,通过提供成功结果的示例来代替复杂且需要技术专业知识的奖励函数。该方法不需要中间奖励函数的学习,仅仅依靠转移和成功结果来学习价值函数,从而需要调整的超参数较少并且代码读起来更加简单易懂。实验结果表明,此方法优于先前学习显式奖励函数的方法。
Mar, 2021
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强化学习算法的优势。
Feb, 2024
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
Mar, 2024