地质定向钻井中的最优顺序决策:一种强化学习方法
基于强化学习的自主导航方法,采用深度 Q 网络(DQN)和近端策略优化(PPO)模型,通过机器人与环境的连续交互和实时反馈奖励信号,对路径规划和决策过程进行优化,提高机器人在未知环境中的导航能力和自适应性。
Jul, 2024
本文提出了一种基于深度强化学习(DRL)的一般控制策略框架,用于地下流动环境中的闭环决策制定。针对数据同化 / 历史匹配和鲁棒优化步骤中的挑战,将闭环油藏管理(CLRM)问题表示为一个部分可观察的马尔科夫决策过程,并使用近端策略优化算法来解决相关的优化问题。数据集由多个地质模型场景合集构成,训练结果表明相对于既有地质模型的鲁棒优化以及传统的 CLRM 方法,基于 DRL 的方法在油水注入生产中的净现值(NPV)获得了 15% 和 33% 的提升,并且相对于传统 CLRM 平均提升了 4% NPV,并且在多种地质模型场景中均能发挥较好的效果。
Mar, 2022
通过比较分析基于深度 Q 网络(DQN)算法和基于双重深度 Q 网络(DDQN)算法的深度强化学习(Deep-RL)策略,本研究提出了两种不同的方法,旨在增强地面移动机器人的无地图导航能力。这些方法中的智能体利用来自激光范围采样的 24 个测量,以及与目标的位置差异和方向相关的智能体位置数据,通过融合这些数据来影响导航决策,从而最终控制机器人的速度。实验结果表明,相比于简单的 Q 结构,双重深度结构显著提高了移动机器人的导航能力,且无需依赖于复杂的感知输入,如基于图像的方法。
Oct, 2023
本研究通过比较分析单目标和多目标强化学习方法,针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术,包括深度 Q 网络(DQN),深度确定性策略梯度(DDPG)和双延迟 DDPG(TD3),在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而,在存在多个潜在冲突目标的复杂环境中,这些方法的局限性显现。为了解决这些局限性,我们提出了一种采用多目标强化学习(MORL)的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量,机器人学习了一种能够平衡不同目标的策略,旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力,为进一步研究可适应性和实用性更强的机器人行为奠定了基础。
Dec, 2023
本文提出了基于强化学习的 DQ 优化器,用于实现优化查询的联接操作。该优化器可以提供比传统强化学习方法更快的速度和更低的成本,同时具有很高的性能和可显著缩短查询执行时间的能力。
Aug, 2018
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
Sep, 2022
用于天文学调度优化问题的强化学习算法,在模拟数据集上经过多次改进和调整后,显示出很高的性能,对于特定的天文学挑战,这是第一次对离线强化学习算法进行比较和评估的研究。
Nov, 2023
通过采用深度强化学习从事自主驾驶车辆上的车辆跟随和变道模型,本论文探讨了解决构成道路阻塞的突发情况,提出了基于 Markov 决策过程和 MEC 辅助架构的综合决策控制系统,并通过 SUMO 模拟器和 OPENAI GYM 评估了该模型的性能,结果显示使用 ε-greedy 策略进行训练的 DQN 代理明显优于使用 Boltzmann 策略进行训练的代理。
Sep, 2023