- 基于分解的多目标强化学习:分类与框架
基于分解的多目标强化学习(MORL/D)引入了一个全面的分类体系,提供了一个有结构的基础,用于对现有和潜在 MORL 作品进行分类。同时,引入的框架展示了其灵活性,并通过各种配置的实现来证明其多功能性。通过提出这个分类体系和框架,本文为 M - 具有可证明保证的非线性多目标强化学习
RA-E3 是一个算法,能够解决单目标或多目标的马尔可夫决策过程中的奖励积累函数期望值最大化问题,并且可以用于多目标强化学习中的公平感知、风险感知以及以非线性 Von Neumann-Morgenstern 效用函数进行的单目标强化学习。该 - 语言模型的可控解码
我们提出了一种控制解码(CD)的创新离策略强化学习方法,以控制语言模型的自回归生成,以实现高回报结果。CD 通过一种用于奖励的值函数(我们称之为前缀评分器)解决了一个离策略强化学习问题,该前缀评分器在推断时间用于引导生成以实现更高的回报结果 - 多目标强化学习的超参数优化
对多目标强化学习中超参数优化的挑战进行了初步调查,并提出了一种系统性方法来解决这个问题,该方法能够显著提高多目标强化学习代理的性能,并鉴定了未来的研究机会。
- 个性化汤:通过事后参数合并实现个性化大型语言模型对齐
通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF - 城市无人机导航:自编码器学习融合的空气动力学
这篇论文介绍了一种将多目标强化学习与卷积自编码器相结合的方法,以提高城市紧急搜索和救援中的无人机导航。该方法利用多目标强化学习实现多个目标,并利用自编码器进行经济高效的风模拟,通过利用城市布局的图像数据,无人机可以自主进行导航决策,优化路径 - 一种针对非平稳环境下多目标强化学习的稳定策略引导算法
提出了一种能够在非稳态环境中以在线方式稳健演化一个凸覆盖策略集的新型多目标强化学习算法,并在稳态和非稳态环境中与现有算法进行比较,结果表明该算法在非稳态环境中显著优于现有算法,并在稳态环境中达到可比较的结果。
- 微电网能量管理的多目标强化学习框架
本文提出了一种新颖的多目标强化学习框架,可以探索高维的目标空间并发现冲突目标之间的权衡,该框架利用强化学习的数据驱动特性,可在不需要长期预测或对根本不确定性的了解的情况下进行参数化政策的训练,用于 Cornell 大学微电网(CU-MG)的 - ICLR离线多目标强化学习扩展帕累托高效决策
本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下 - 通过广义策略改进优先级实现高样本效率的多目标学习
介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步 - 多目标强化学习中随机环境和局部决策问题的解决
本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素,并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能,全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能, - PD-MORL: 基于偏好的多目标强化学习算法
本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量 - 基于生成流模型的期望标量化收益多目标协调图
本文介绍了一种名为 DMOVE 的算法,它利用连续回报分布来计算多目标协调图中预期标量化回报的集合。DMOVE 算法可用于风场控制等实际问题,可以计算期望标量化回报作为单次执行多策略时的实用功能。
- gTLO:通用的、非线性的多目标深度强化学习方法
本研究提出了一种旨在将非线性 MORL 与广义 MORL 的优势相结合的新方法 —— 广义阈值词典排序 (gTLO),并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中,介绍了该算法的深度强化学习实现,并取得了令人鼓舞的结果。
- 行为多样化的自动化渗透测试:一种基于好奇心驱动的多目标深度强化学习方法
本文提出了一种基于多目标强化学习的自动化渗透测试方法,包括 Chebyshev 分解批评家和覆盖率屏蔽机制,可在更短的时间内发现多样化的攻击策略,提高测试效率和准确性。
- 通过强化学习实现帕累托有效的公平效用权衡推荐
本文提出了一种基于多目标强化学习的公平感知的推荐框架(MoFIR),能够以单参数表示形式学习所有可能偏好的最优推荐策略,并在多个真实推荐数据集上的实验中验证了其在公平指标和推荐度量方面的优越性。
- WSDM选择两全其美:通过多目标强化学习实现多样化且新颖的推荐
介绍了一种新的强化学习框架 SMORL,可在多重目标推荐任务中同时增加准确性,多样性和新颖性。该实验表明,在两个真实世界的数据集上,与仅关注准确性的单一目标强化学习代理相比,推荐多样性显著增加,准确性适度提高,而推荐的重复性也得到了减少,并 - 迎合挑剔的顾客:多目标强化学习的遗憾界与探索复杂度
提出一种基于马尔可夫决策过程的实现多目标强化学习的模型,针对不确定性的 reward 函数,使用内积方法建立了一种新的衡量指标,探讨了在线学习以及基于 Preference-free exploration 的学习方式,并提出了一种轨迹复杂 - 多目标策略优化的分布式视角
本文提出了一种用于多目标强化学习的新算法,可以以一种无量纲的方式设置目标的偏好,并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性,从而找到一组非支配解空间。
- 多目标强化学习和策略适应的广义算法
提出了一种基于广义 Bellman 方程的多目标强化学习算法,该算法可通过极少量的样本快速适应新任务并生成最优策略。