增强机器人导航：单一和多目标强化学习策略的评估

Dec, 2023

增强机器人导航：单一和多目标强化学习策略的评估

Enhancing Robotic Navigation: An Evaluation of Single and Multi-Objective Reinforcement Learning Strategies

Vicki Young, Jumman Hossain, Nirmalya Roy

TL;DR本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Abstract

This study presents a comparative analysis between single-objective and multi-objective reinforcement learning methods for training a robo

reinforcement learning robot navigation single-objective multi-objective morl

发现论文，激发创造

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

使用深度强化学习的机器人路径规划

本文介绍了如何使用强化学习方法和深度 Q 网络等算法，使得机器人可以在未知环境中进行自主导航的任务。我们还利用模拟环境对机器人代理的行为和性能进行了验证和分析。

Feb, 2023

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024

多目标强化学习中随机环境和局部决策问题的解决

本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Nov, 2022

基于双重强化学习技术的地面移动机器人增强低维度感知无地图导航

通过比较分析基于深度 Q 网络（DQN）算法和基于双重深度 Q 网络（DDQN）算法的深度强化学习（Deep-RL）策略，本研究提出了两种不同的方法，旨在增强地面移动机器人的无地图导航能力。这些方法中的智能体利用来自激光范围采样的 24 个测量，以及与目标的位置差异和方向相关的智能体位置数据，通过融合这些数据来影响导航决策，从而最终控制机器人的速度。实验结果表明，相比于简单的 Q 结构，双重深度结构显著提高了移动机器人的导航能力，且无需依赖于复杂的感知输入，如基于图像的方法。

Oct, 2023

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

基于效用的强化学习：统一单目标与多目标强化学习

通过引入基于效用的范式，将多目标强化学习的研究扩展到单目标强化学习领域，探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处，并研究了采用基于效用的方法所带来的算法性能影响。

Feb, 2024

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

基于价值的多目标强化学习在随机环境中的实证研究

本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究，考察了算法的变种以及奖励工程方法，并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。

Jan, 2024

基于深度 Q 学习的自主仓库机器人

提出采用深度强化学习和传统的 Q-learning 方法来解决仓库机器人导航，避障和产品摆放等问题，包括针对单机器人，多机器人的情况，成功在二维仿真环境中测试了模型的性能。

Feb, 2022