gTLO:通用的、非线性的多目标深度强化学习方法
本文介绍了将多目标强化学习应用到连续控制问题中,通过元学习的方法探索可能的最优策略,以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。
Nov, 2018
本研究提出了一种新型的多目标强化学习算法PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。
Aug, 2022
介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用Dyna样式的MORL方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步数的最优解,同时单调地提高其部分解决方案的质量。
Jan, 2023
本文提出了一种新的数据驱动离线MORL设置,介绍了专门针对离线设置的数据集D4MORL,提出了一种基于Pareto-Efficient Decision Agents算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下提供了Pareto-front的良好近似,可以通过超体积和稀疏度度量来衡量。
Apr, 2023
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
Oct, 2023
基于分解的多目标强化学习(MORL/D)引入了一个全面的分类体系,提供了一个有结构的基础,用于对现有和潜在MORL作品进行分类。同时,引入的框架展示了其灵活性,并通过各种配置的实现来证明其多功能性。通过提出这个分类体系和框架,本文为MORL提供了综合的视角和统一的词汇,不仅有助于算法贡献的识别,还为MORL领域的新研究方向奠定了基础,推动了该领域的持续发展。
Nov, 2023
多目标强化学习中,为了满足预定义的约束条件,我们提出了一种新的算法 CoMOGA,将原始的约束优化问题转化为带有附加约束的优化问题,并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估,该方法在满足约束和保持目标尺度不变方面优于其他基线模型。
Mar, 2024
利用先前示范、角重支持、自我演进机制和样本复杂度,我们引入了一种新型方法,即示范引导的多目标强化学习(DG-MORL),以解决多目标强化学习中从头开始训练策略的困难,并通过各种实验证明了DG-MORL在挑战性条件下的优越性、稳健性和有效性,同时提供了算法的样本复杂度上界。
Apr, 2024
本研究解决了自主系统中应用强化学习时只能优化单一目标的问题,提出了一种称为深度W学习的多目标强化学习技术,通过在自适应网络服务器样本上进行性能优化评估,展示了其同时优化多个目标的能力。研究表明,深度W学习在某些指标上表现优于传统的单目标优化方法,避免了将多个目标组合为单一效用函数带来的问题。
Aug, 2024