- ICML具有上下文感知标记化的高效世界模型
通过构建 Delta-IRIS,一个世界模型结构,利用离散自编码器和自回归变换器来预测未来时间步的变化量,本研究在 Crafter 基准测试中取得了新的最高水平,而且训练速度比以前的基于注意力的方法快一个数量级。
- 强化学习设置中的专家混合模型
以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能,通过多任务训练模拟非稳态性的扩大,进一步增强学习能力,并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。
- 结合超参数自动优化和奖励形状
深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性 - ICML突破障碍:平滑 DRL 代理程序中的增强效用和鲁棒性
我们提出了 S-DQN 和 S-PPO 方法,通过对现有平滑代理的改进,在标准 RL 基准测试中显著提高了干净奖励、经验鲁棒性和鲁棒性保证,平均因子分别为 $2.16 imes$ 和 $2.13 imes$。此外,我们引入了 Smoothe - 值为基础的深度强化学习中超参数选择的一致性
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保 - 电网拓扑优化中的代理故障检测:一项综合分析
通过深度强化学习(DRL)对传输网络进行拓扑优化已经成为研究热点。本研究针对电力网格故障进行失败模式识别,并通过多类别预测方法探测故障,最终得出特征重要性分析结果。
- Alpha²:基于深度强化学习发现逻辑公式式 Alpha
我们提出了一种使用深度强化学习进行 alpha 发现的新框架,通过将 alpha 发现过程形式化为程序构建。我们的代理人引导的搜索算法根据潜在 alpha 结果的价值估计在搜索空间中导航。我们的实证实验表明,我们的方法能够识别出一组多样化、 - MMOpticGAI:基于生成式 AI 辅助深度强化学习的光网络优化
利用生成模型实现了深度强化学习 (DRL) 框架 OpticGAI,并通过在光网络优化中解决 Routing and Wavelength Assignment (RWA) 和 dynamic Routing, Modulation, an - KnobTree:基于可解释强化学习的智能数据库参数配置
提出了 KnobTree 框架,用于优化数据库参数配置,其中包括基于强化学习不同树的可解释数据库调优算法,以及利用 Shapley 值进行参数重要性评估的可解释方法。在 MySQL 和 Gbase8s 数据库上进行的实验证实了 KnobTr - 稠密城市环境下确保连接性的深度无人机路径规划
通过提出 DUPAC,一种基于深度强化学习的无人机路径规划框架来解决操作员控制的无人机飞行和手动静态飞行配置等问题,该框架在维持优秀无人机与蜂窝网络连接的同时,实现了从起点到终点的最佳路线确定,并在实验中展现了可行性和性能。
- 图上最大覆盖问题的深度强化学习方法对比研究
这篇论文通过全面的基准研究,调查了五种最近的深度强化学习方法在最大覆盖问题和影响最大化问题中的有效性和效率,并发现在最大覆盖问题中,Lazy Greedy 算法一直优于所有深度强化学习方法,而在影响最大化问题中,IMM 和 OPIM 算法在 - 图神经网络用于工作车间调度问题的综述
此篇综述主要介绍了图神经网络在解决调度问题中的应用,探讨了不同类型的作业车间调度问题和流水车间调度问题,并重点研究了深度强化学习方法。通过介绍图表示和常用的图神经网络架构,作者回顾了各种问题类型的 GNN 方法,在图表示、图神经网络架构、G - MM室内环境下采用 NOMA 辅助的多 STAR-RIS 设计优化:凸逼近模仿强化学习方法
通过多个关键接入点(APs)和自适应重构智能表面(STAR-RISs)的新型网络架构,该研究论文提出了应对室内通信中干扰抑制、功耗和实时配置方面的挑战的解决方案,并采用多智能体深度强化学习(MADRL)来优化 STAR-RIS 的控制。通过 - 基于超人视觉的自动驾驶格兰・图里斯莫赛车的强化学习代理
使用仅局部输入的姿态视角摄像头图像和车辆信息,通过训练期间仅借助全局特征,该研究介绍了第一个视觉型超人级赛车智能体,其在时间赛中击败了最优秀的人类驾驶员。
- 基于多智能体强化学习的可重构智能表面辅助 VEC
车辆边缘计算通过执行本地任务或将任务卸载到附近边缘设备来实现高强度任务处理,而可重构智能表面则通过灵活调整相位来提供替代通信路径。本文提出了一个新的深度强化学习框架,结合修改后的多智能体深度确定性策略梯度(MADDPG)方法和块坐标下降(B - 模块量子架构中基于注意力机制的深度强化学习用于量子比特分配
利用深度强化学习的方法,以及模块化分布式体系结构,提出了一种高效的量子电路编译和映射的新型学习启发式方法,以解决量子计算系统中的通信最优化问题。
- 社会合规导航的在线上下文学习
该研究介绍了一种在线环境学习方法,旨在使机器人适应新的社交环境,并采用深度增强学习和在线机器人学习方法来提高机器人社交导航性能。
- MM多无人机多 RIS 关注 QoS 的空中通信系统使用 DRL 和 PSO
无人机在提供无线服务方面具有优势,但资源限制给应用带来挑战。本论文介绍了一种优化模型,通过无人机路径规划和多重反射面支持,最大化吞吐量和覆盖范围,通过深度强化学习和粒子群算法解决了线性规划技术的限制,并通过大量仿真实验证明在服务质量方面相比 - 多智能体深度强化学习中的协作决策方法:混合 Q 学习用于变道
本文提出了一种名为 MQLC 的方法,它通过整合混合价值 Q 网络,同时考虑集体和个体效益,以解决自主车辆路径规划中的车道变换决策问题。通过在观察中整合基于深度学习的意图识别模块并加强决策网络,使多主体系统能够有效地学习并制定最佳决策策略, - 超越训练:通过自适应动作采样优化基于强化学习的工作车间调度
利用经过训练的深度强化学习智能体进行推理的优化参数化方法,该方法通过调整训练好的行为向量,使智能体在解决方案构建过程中更好地探索或开发,进而在有限的计算预算情况下生成更多可接受的解决方案。