多目标深度强化学习中的动态权重

Sep, 2018

多目标深度强化学习中的动态权重

Dynamic Weights in Multi-Objective Deep Reinforcement Learning

Axel Abels, Diederik M. Roijers, Tom Lenaerts, Ann Nowé, Denis Steckelmacher

TL;DR本文提出了一种多目标 Q 网络，可以处理动态权重下的多目标强化学习问题，并引入了多样性经验回放方法以应对动态权重下的非稳定性问题。实验结果表明，该方法在权重变化场景和问题领域上的性能优于现有的算法。

Abstract

Many real-world decision problems are characterized by multiple conflicting objectives which must be balanced based on their relative importance. In the dynamic weights setting the relative importance changes over time and specialized algorithms that deal with such change, such as a ta

multi-objective reinforcement learning dynamic weights setting function approximators diverse experience replay deep multi-task learning

发现论文，激发创造

多目标强化学习中基于动态权重的演示偏好推断方法

该研究提出了一种基于动态权重的偏好推断算法，通过观察环境中的行为轨迹，能够推断多目标决策问题中代理人的偏好，实验结果表明其相较于现有方法能够显著提高推断效率和准确性。

Apr, 2023

多目标深度强化学习

文章提出 DOL 方法，通过使用高维输入的特征，计算包含所有潜在最优解的凸组合集，解决了高维多目标决策问题，并提供了一个包含两个实验的基准测试平台用于深度多目标强化学习。

Oct, 2016

通过多目标偏好聚合的动态价值调整

通过动态价值对齐的多目标方法，扩展了深度 Q-Learning 以适应多个目标，在一个由切换代理程序控制的简化交叉口上，动态适应驾驶员对系统的偏好，实现了在速度、停车和等待等三个指标上更好的综合性能，同时整合了具有竞争或冲突行为的目标。

Oct, 2023

芯片布局的灵活多目标强化学习

本文提出一种灵活的多目标强化学习方法 (MORL)，使用单个预先训练的模型来支持具有推理时间变量权重的目标函数，并成功地将其应用于芯片布局中，有效地生成多个目标的 Pareto 前沿。

Apr, 2022

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

自动驾驶中的深度强化学习动态输入

本文阐述了全连接神经网络，卷积神经网络和递归神经网络在处理变量大小输入的强化学习问题方面的局限性，提出了一种利用 Deep Sets 结构的离线决策方法，用于高层次决策，通过比较各种不同的可能性，表明 Deep Sets 不仅在总体表现上表现优异，而且在未见情况下呈现更好的泛化性。

Jul, 2019

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

随机协同环境中的加权双重深度多智能体强化学习

本文提出了一种名为 WDDQN 的多智能体深度强化学习框架，通过利用加权双估计器和深度神经网络，在具有原始视觉输入的场景下有效地减少偏差，并引入宽以待人的奖励网络和调度重放策略以实现多智能体领域的有效合作，实验证明 WDDQN 在随机合作环境中在平均奖励和收敛速度方面优于现有的 DRL 和多智能体 DRL 算法，即双重 DQN 和宽以待人的 Q-learning。

Feb, 2018

动态体验回放

提出了一种名为动态经验重放（DER）的新技术，它允许强化学习算法不仅使用人类示范的经验重放样本，还使用训练期间由 RL 代理生成的成功转移，因此提高了训练效率，并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验，并比较不同的重放缓冲区结构和 DER 在其中的影响。

Mar, 2020