- 自动驾驶望远镜:离线强化学习的天文观测任务自主调度
用于天文学调度优化问题的强化学习算法,在模拟数据集上经过多次改进和调整后,显示出很高的性能,对于特定的天文学挑战,这是第一次对离线强化学习算法进行比较和评估的研究。
- 关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析
该论文通过理论分析探讨了深度强化学习中的深度 Q 网络(DQN)和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析,并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验 - 地质定向钻井中的最优顺序决策:一种强化学习方法
利用模型无关的强化学习方法深度 Q 网络(DQN)优化地质导向决策,达到与近似最优决策优化方法相当的高质量结果,同时提供实时决策支持。
- 脉冲冲击射流传热控制的深度强化学习
这项研究旨在探讨强化学习在基于计算流体力学的热控制中的适用性。结果表明,基于深度 Q 网络的 DRL 方法在热控制中具有较高的效率和可行性,其中软化双重 DQN 方法在各种变体中表现最佳,可以在控制周期的 98%以上将温度保持在期望的阈值范 - 基于视觉的元宇宙服务语义传播:竞赛理论方法
建议使用语义通信框架和深度 Q 网络优化资源分配,以实现虚拟现实环境中的角色关联的资源分配,确保用户在 Metaverse 中获得流畅而沉浸的体验。
- 将多类别分类算法与深度 Q 网络结合
我们研究了如何使用深度 Q 网络(DQN)来提高多类分类算法的功能性,并利用 Kaggle 的基准数据集创建了将 DQN 与现有的监督式多类分类算法结合的框架。本研究的发现将揭示深度强化学习策略如何提高多类分类准确性,并应用于图像识别、自然 - 基于网络内计算的元宇宙动态部分计算卸载
该研究在 “网络内计算” 范式下探讨了分布式计算优化的问题,采用了序态潜力博弈(OPG)和双深度 Q 网络(DDQN)等算法以优化计算资源利用率和性能,进而获得了比传统基线更加出色的结果。
- 深度强化学习在复杂环境下的机器人推和取
本文提出了一种新颖的机器人抓取系统,由气泡吸盘和机械手抓手组成。利用可供性地图提供像素级的气泡吸盘升力点候选物,并引入主动探索机制,设计了一种有效的度量来计算当前可供性地图的奖励,并使用深度 Q 网络(DQN)指导机器人手探索环境,实验结果 - 理解每步回放不同数量的影响
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提 - 使用 DQN 在 AI 足球环境下进行踢球训练
使用相对坐标系代替绝对坐标系应用于深度 Q 网络训练机器人选手踢球,在 AI 足球场景中进行测试。
- MM基于联邦强化学习的超密集毫米波网络束形管理:一个智能和安全的方法
本文介绍一种新型系统化波束控制方案,针对超密集的毫米波网络的波束管理问题。在基于联邦学习的波束管理方案中,使用了双层深度 Q 网络(DDQN),非原始数据聚合可以在减少切换成本的同时,理论上保护用户隐私。模拟结果证明了本文所提出的方案的性能 - 深度 Q 网络在人工智能足球中的应用
利用深度 Q 网络算法,成功对 AI Soccer 等 5:5 机器人足球游戏中的机器人进行训练,并在 AI Soccer 国际大赛中进入了前 16 强。
- ACL任务完成对话系统的反高估对话策略学习
本论文提出了一种动态部分平均估计器(DPAV),将其纳入深度 Q 网络作为对话策略,解决了基于强化学习的对话策略中过高估计问题,实验表明该方法在三个不同领域的对话数据集上具有与顶尖基线相当的结果,与其他方法相比,具有更低的计算负荷,同时还从 - 基于滞后效应的强化学习:通过混合控制增强强化学习控制策略的稳健性
提出了一种名为 Hysteresis-Based RL(HyRL)的混合算法,通过在现有 RL 算法中增加滞后开关和两个学习阶段提高了算法的稳健性,并在 PPO 和 DQN 无法处理的两个问题中说明了其性质。
- SafePicking: 通过对象级映射学习安全的物体提取
本文介绍了一个名为 SafePicking 的系统,它结合了目标级别的建图和学习驱动的运动规划来安全地从堆中提取目标物体,通过使用模拟和真实世界中的 YCB 物体进行评估,结果表明安全度量奖励的深度 Q 网络的学习可以实现目标提取的成功和稳 - 自适应前瞻规划与学习
本研究介绍了一种新的强化学习框架,提出了基于状态相关价值估计的自适应规划水平选择策略,并设计了相应的深度 Q 网络算法,最后在迷宫环境和 Atari 上验证了方法的有效性。
- KDDKDD Cup 2021 City Brain 挑战赛的 DQN 控制解决方案
本文介绍了参加城市大脑挑战赛的详细解决方案,主要基于对深度 Q - 网络(DQN)在实时交通信号控制方面的扩展,在应用新设计的奖励函数和精心调整控制模式后,基于单个 DQN 模型的代理能够名列前 15 个团队,为实际道路网络信号控制提供了基 - AAAI移动用户画像的增强式图像学习:对抗训练视角
本文提出了一种基于强化学习的模仿式移动用户画像框架,是一种利用精确用户画像来完美重现用户移动轨迹的预测模型,并利用 LSTM 来整合用户特征进行增量更新。
- 机器学习增强的无人机反射表面轨迹与无源波束成形设计
提出一种新的框架,通过在无人机网中部署 RIS 进行服务质量的提升,采用非正交多址技术进一步提高网络的频谱效率,设计深度 Q - 网络算法来解决能源消耗最小化问题。
- 慕尼黑强化学习
本文提出一种利用当前策略对强化学习中未知状态值的估计方法,以及通过在 DQN 和 IQN 算法中添加缩放的 log 策略函数获得与分布式 RL 相竞争的新代理的实验研究和理论分析。