非累计目标的强化学习
通过两个分析设置,在考虑样本复杂度和计算复杂度的情况下,证明了强化学习目标的 PAC 可学习性。给出了三个文献中以前未知的 PAC 可学习性的目标的应用,并证明了这些目标的 PAC - 可学习性。
Mar, 2023
通过将强化学习视为监督学习的一种推广,本文介绍了一个与经典强化学习教材不同的方法,使读者在了解基本的监督学习知识后能够理解类似于近端策略优化(PPO)的最新深度强化学习算法。
Dec, 2023
该论文提出了一种泛化的强化学习目标函数,其中包括标准的目标定义、扩展的 λ 回报版本和通过统一前两个版本提出的强化学习的目标函数,它可以高级地理解强化学习的目标,并连接一些广泛使用的强化学习技术(例如 TD (lambda) 和 GAE),这个目标函数可能适用于广泛的强化学习算法。
Jun, 2023
本文为那些希望将多目标方法引入其研究的已经熟悉单目标强化学习和计划方法的研究人员以及在实践中遇到多目标决策问题的从业人员提供了一个解决复杂问题的指南,阐述了影响所需解决方案性质的因素,并通过示例说明了这些因素如何影响复杂问题的多目标决策系统的设计。
Mar, 2021
提出了一种基于 Lagrangian relaxation 的约束强化学习方法,通过同时优化任务奖励和某些辅助成本来确保任务成功,展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上,该方法的有效性。
Feb, 2019
本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法,以学习为非线性福利函数进行优化。我们的算法可以被证明收敛,并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比,在 Nash 社会福利目标方面,我们的方法表现出更好的效果。
Nov, 2022
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
May, 2020
本文提出了累积可达性函数的概念,以此解决强化学习中多目标达成的几个挑战,如高样本复杂性、仅学习单个目标达成方式、解决复杂运动规划任务等;而且,本方法能够在提供的规划水平下建议达成单个目标的多条路径,因此与当前领先的目标达成算法相比,在成功率、样本复杂性和路径优化等方面表现更好。
Nov, 2020