- 学习帕累托集合用于多目标连续机器人控制
多目标控制问题中,我们提出了一种简单高效的多目标强化学习算法,通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集,实现了不同用户偏好下的多种优化策略网络的直接生成,并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。
- 在线巴累托最优决策中的主动推理
本研究旨在引入一种新颖的多目标强化学习框架,确保任务的安全执行,优化目标之间的权衡,并符合用户的偏好。该框架包含两个主要层次:多目标任务规划器和高层选择器。通过案例研究和基准测试,证明了我们的框架在操作和移动机器人方面优于其他方法,并且能够 - ICML多目标强化学习的最大最小公式:从理论到无模型算法
本文研究多目标强化学习在应对多个优化目标的实际问题中的应用,采用最大最小框架从公平的角度出发并在该框架下提出了相关理论和实用的无模型算法。所提出的理论在多目标强化学习方面具有理论上的突破,而所提出的算法在性能上显著优于现有的基准方法。
- 多目标强化学习从 AI 反馈
多目标强化学习(MORLAIF)通过使用 AI 反馈强化学习来改善语言模型的对齐和性能,将这一任务分解为多个简单的原则,如毒性、客观性和谄媚,并使用 GPT-3.5-Turbo 的反馈进行各原则的偏好模型训练,然后利用不同的标量化函数将这些 - 基于效用的基础设施维护优化的深度多目标强化学习
该研究介绍了一种多目标深度集中式多智能体演员 - 评论家方法,用于基础设施维护优化,这是传统上由单目标强化学习方法主导的领域。通过应用 MO-DCMAC 方法,我们在多个维护环境中评估了 MO-DCMAC,并将其与基于启发式规则的传统策略进 - 基于多目标强化学习的时空提前预测
介绍了基于多目标强化学习的时空早期预测模型,解决了提高早期预测准确性和确定每个区域最适合的预测时间的最优策略的问题。在三个大规模真实数据集上表现出了优异的性能,在早期时空预测任务中超越了现有方法。
- ACL基于强化学习的文本摘要的多维优化
本文提出了一种多目标强化学习方法,通过多维优化策略和基于问答的奖励模型生成在多个维度上平衡的、简洁但信息丰富的摘要,取得比基准模型更好的性能表现。
- MM基于变分量子电路的强化学习的车载网络优化
本研究使用变分量子电路(VQC)多目标强化学习(MORL)框架来开发一个用于选择网络和自主驾驶政策的韧性和高效的决策策略,数字结果证明了 VQC-MORL 解决方案在收敛速度和奖励方面相对于传统的深度 Q 网络有显著的改进。
- 在 URLLC 启用的车载网络中使用包络更新的广义多目标强化学习
我们开发了一种新的多目标强化学习(MORL)框架,以在传统的次 6GHz 频谱和太赫兹频率上运行的多频段车联网中共同优化无线网络选择和自主驾驶策略。该框架旨在通过控制车辆的运动动态(即速度和加速度)来最大化交通流量,最小化碰撞,并增强超可靠 - ICML有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度
该研究论文介绍了一种创新的演员 - 评论家算法 MOAC,用于解决多目标强化学习问题,并提供了有限时间帕累托平稳收敛和样本复杂度的分析,通过在冲突的奖励信号之间进行权衡来找到策略,解决了应用中普遍存在的多个潜在冲突目标的问题,并通过实验证实 - 基于 UCB 驱动的多目标增强学习的效用函数搜索
基于多目标强化学习的分解方法,通过使用多个效用函数将多目标问题分解为单目标问题,采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量,以最大化 resulting Pareto front 的超体积。
- 示范引导的多目标强化学习
利用先前示范、角重支持、自我演进机制和样本复杂度,我们引入了一种新型方法,即示范引导的多目标强化学习(DG-MORL),以解决多目标强化学习中从头开始训练策略的困难,并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效 - 约束多目标强化学习的尺度不变梯度聚集
多目标强化学习中,为了满足预定义的约束条件,我们提出了一种新的算法 CoMOGA,将原始的约束优化问题转化为带有附加约束的优化问题,并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估,该方法在满足约束和保持目标尺度不变方 - PMGDA: 基于偏好的多梯度下降算法
为了解决多目标机器学习中出现的问题,本文提出了一种新颖的预测和校正框架,用于定位决策者所需的精确 Pareto 最优解。该方法可以高效地在标准基准、多任务和多目标强化学习问题中找到精确的 Pareto 最优解。
- 分而治之:利用多目标强化学习可证明揭示帕累托前沿
多目标强化学习中的一个重要挑战是在不同偏好下获得达到最优性能的政策帕累托前沿,本文引入了迭代帕累托参考优化(IPRO),一种将寻找帕累托前沿的任务分解成一系列单目标问题的原则性算法,以此实现收敛性保证并在每一步给出到未发现帕累托最优解的距离 - 基于价值的多目标强化学习中的价值函数干扰和贪婪动作选择
多目标强化学习算法扩展了传统的强化学习方法以解决存在多个冲突目标的问题,通过向量值奖励进行表示。我们在此论文中展示了,如果用户的效用函数将各向量值映射到相似的效用级别,这可能导致代理学到的值函数受到干扰,从而收敛到次优策略。尽管在确定贪婪动 - 基于效用的强化学习:统一单目标与多目标强化学习
通过引入基于效用的范式,将多目标强化学习的研究扩展到单目标强化学习领域,探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处,并研究了采用基于效用的方法所带来的算法性能影响。
- 通过强化学习对流行病控制政策的建模与优化
通过使用多目标强化学习和流行病学模型,研究提供了一种优化决策的方法来同时减少经济影响和感染率的多种大流行病场景。
- 基于价值的多目标强化学习在随机环境中的实证研究
本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究,考察了算法的变种以及奖励工程方法,并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。
- 可提示行为:个性化多目标奖励从人类偏好
本文提出了一个名为 Promptable Behaviors 的新型框架,用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略,并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种