- 让混合 A * 路径规划器遵守交通规则:基于深度强化学习的规划框架
利用深度强化学习(DRL)和混合 A * 路径规划方法,在自动驾驶系统中实现高级决策与低级轨迹规划,并通过真实系统验证其可行性。
- 大规模多地形深度强化学习中的超约束机动演化形态
通过深度强化学习和进化形态学,本研究探索了一种新型的过约束机器的设计与学习,旨在开发具有卓越能量效率的现代机器人四肢设计。研究结果显示,相较于平面四肢,在不同地形上,包括地板、斜坡和楼梯,过约束四肢的运动更加高效,至少可节省 22% 的机械 - 深度强化学习对恶劣车库场景生成的研究
自主车辆需要行驶超过 110 亿英里以确保其安全性。因此,在进行真实世界测试之前进行模拟测试的重要性是不言而喻的。近年来,以 Carla 和 CarSim 为代表的自主驾驶三维模拟器的发布,标志着自主驾驶模拟测试环境从简单的 2D 俯视图过 - 基于物理先验信息的决策变压器在配电系统修复中的探索:方法和性能分析
通过利用大型语言模型的强大计算能力,本研究首次探索了基于语言模型的物理知识决策变换器 (PIDT) 框架,以解决传统强化学习方法在电力系统运行中分布式系统修复 (DSR) 问题中的伸缩性挑战,并通过比较研究评估其性能。
- 高级空中机动性的应急管理中考虑深度强化学习时的权衡
这篇论文探讨了在现代航空运输中引入的先进空中机动性(AAM)所带来的挑战和机遇,着重研究了自主运营需要的控制系统以及使用深度强化学习(DRL)技术进行演示环境中的危害减轻的比较。
- ICML具有上下文感知标记化的高效世界模型
通过构建 Delta-IRIS,一个世界模型结构,利用离散自编码器和自回归变换器来预测未来时间步的变化量,本研究在 Crafter 基准测试中取得了新的最高水平,而且训练速度比以前的基于注意力的方法快一个数量级。
- 强化学习设置中的专家混合模型
以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能,通过多任务训练模拟非稳态性的扩大,进一步增强学习能力,并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。
- 结合超参数自动优化和奖励形状
深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性 - ICML突破障碍:平滑 DRL 代理程序中的增强效用和鲁棒性
我们提出了 S-DQN 和 S-PPO 方法,通过对现有平滑代理的改进,在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证,平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外,我们引入了 Smoothe - 值为基础的深度强化学习中超参数选择的一致性
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保 - 电网拓扑优化中的代理故障检测:一项综合分析
通过深度强化学习(DRL)对传输网络进行拓扑优化已经成为研究热点。本研究针对电力网格故障进行失败模式识别,并通过多类别预测方法探测故障,最终得出特征重要性分析结果。
- Alpha²:基于深度强化学习发现逻辑公式式 Alpha
我们提出了一种使用深度强化学习进行 alpha 发现的新框架,通过将 alpha 发现过程形式化为程序构建。我们的代理人引导的搜索算法根据潜在 alpha 结果的价值估计在搜索空间中导航。我们的实证实验表明,我们的方法能够识别出一组多样化、 - MMOpticGAI:基于生成式 AI 辅助深度强化学习的光网络优化
利用生成模型实现了深度强化学习 (DRL) 框架 OpticGAI,并通过在光网络优化中解决 Routing and Wavelength Assignment (RWA) 和 dynamic Routing, Modulation, an - KnobTree:基于可解释强化学习的智能数据库参数配置
提出了 KnobTree 框架,用于优化数据库参数配置,其中包括基于强化学习不同树的可解释数据库调优算法,以及利用 Shapley 值进行参数重要性评估的可解释方法。在 MySQL 和 Gbase8s 数据库上进行的实验证实了 KnobTr - 稠密城市环境下确保连接性的深度无人机路径规划
通过提出 DUPAC,一种基于深度强化学习的无人机路径规划框架来解决操作员控制的无人机飞行和手动静态飞行配置等问题,该框架在维持优秀无人机与蜂窝网络连接的同时,实现了从起点到终点的最佳路线确定,并在实验中展现了可行性和性能。
- 图上最大覆盖问题的深度强化学习方法对比研究
这篇论文通过全面的基准研究,调查了五种最近的深度强化学习方法在最大覆盖问题和影响最大化问题中的有效性和效率,并发现在最大覆盖问题中,Lazy Greedy 算法一直优于所有深度强化学习方法,而在影响最大化问题中,IMM 和 OPIM 算法在 - 图神经网络用于工作车间调度问题的综述
此篇综述主要介绍了图神经网络在解决调度问题中的应用,探讨了不同类型的作业车间调度问题和流水车间调度问题,并重点研究了深度强化学习方法。通过介绍图表示和常用的图神经网络架构,作者回顾了各种问题类型的 GNN 方法,在图表示、图神经网络架构、G - MM室内环境下采用 NOMA 辅助的多 STAR-RIS 设计优化:凸逼近模仿强化学习方法
通过多个关键接入点(APs)和自适应重构智能表面(STAR-RISs)的新型网络架构,该研究论文提出了应对室内通信中干扰抑制、功耗和实时配置方面的挑战的解决方案,并采用多智能体深度强化学习(MADRL)来优化 STAR-RIS 的控制。通过 - 基于超人视觉的自动驾驶格兰・图里斯莫赛车的强化学习代理
使用仅局部输入的姿态视角摄像头图像和车辆信息,通过训练期间仅借助全局特征,该研究介绍了第一个视觉型超人级赛车智能体,其在时间赛中击败了最优秀的人类驾驶员。
- 基于多智能体强化学习的可重构智能表面辅助 VEC
车辆边缘计算通过执行本地任务或将任务卸载到附近边缘设备来实现高强度任务处理,而可重构智能表面则通过灵活调整相位来提供替代通信路径。本文提出了一个新的深度强化学习框架,结合修改后的多智能体深度确定性策略梯度(MADDPG)方法和块坐标下降(B