- 基于深度强化学习的自动规划中的目标选择学习
提出了一种具备学习选择子目标的规划和行动架构,可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构,并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明,与其他方法相比,该模型在计划质量(计划长度)和时间要求方面表 - 基于 VQC 的数据重上传强化学习:性能和可训练性
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时 - 基于深度 Q 学习的智能电动车需求响应在智能电网中的智能调度
使用深度强化学习进行电动车辆在微电网中的充电和放电活动调度,以对齐配电系统运营商提供的目标能源配置文件。
- 揭开面纱:释放 Q 学习中的深度之力
通过统计学习理论的框架,我们理论上证实了深度 Q 学习在捕捉奖励的特殊属性上表现优秀,进而证明了深度 Q 学习优于传统 Q 学习的泛化误差边界,并在供应链管理中的知名啤酒游戏和模拟推荐系统中验证了我们的理论断言。
- 基于强化学习的移动机器人局部路径规划
评估了具有深度 Q-Learning 和 Deep DQN 结构的机器学习算法,以解决自主移动机器人避开障碍物的路径规划问题。
- 通过多目标偏好聚合的动态价值调整
通过动态价值对齐的多目标方法,扩展了深度 Q-Learning 以适应多个目标,在一个由切换代理程序控制的简化交叉口上,动态适应驾驶员对系统的偏好,实现了在速度、停车和等待等三个指标上更好的综合性能,同时整合了具有竞争或冲突行为的目标。
- 一种基于深度强化学习的句子级交互式搜索方法
基于交互反馈进行交互式搜索可以显著提高搜索准确性,而现有最先进系统中,强化学习模型主要通过项级反馈进行交互,忽略了句子级反馈的细粒度信息。本文提出了一种新的基于深度 Q 学习的方法 DQrank,通过适应自然语言处理方面最先进的 BERT - ICML基于强化学习的医学图像时序采样
利用深度 Q 学习和 REINFORCE 算法优化动态图像重建的采样策略
- 基于深度强化学习的 CARLA 模拟自动驾驶
本论文基于强化学习(RL)与 Deep Q-Learning 框架以及 CARLA 仿真环境,探索了一种实现自动驾驶车辆在高速行驶时保持车道并避让其他车辆的策略,以提高交通安全性。
- 基于强化学习的 CrazyFlie 2.X 四轴飞行器控制
本研究的目标是探索 PID 算法和强化学习算法之间的协同作用,以实现对 CrazyFlie 2.X 四旋翼的实用控制机制进行控制。首要目标是使用强化学习策略进行 PID 调整。次要目标是通过与灯塔定位系统集成来实现导航控制。
- 深度 Q 学习和近端策略优化:在材料分类任务中的性能比较
本文基于 Petri 网仿真环境,比较了深度强化学习中的 DQN 和 PPO 算法。结果表明,PPO 在所有的评估指标上都表现优异,说明基于策略的算法在解决高维状态和动作空间问题上具有优势。该研究为深度强化学习在生产系统领域提供了不同算法的 - RELS-DQN: 一种用于组合优化的稳健高效的局部搜索框架
本文介绍了一种名为 RELS-DQN 的深度强化学习(DQN)框架,其利用消息传递神经网络(MPNN)实现局部搜索行为,且在保证运行时和内存效率的同时,在各种应用中实现比本地搜索算法和现有 DQN 模型更高的解值。
- 利用强化学习自动发现多透视过程模型
本文提出了基于深度 Q 学习的多角度过程模型的自动发现框架和优化体验回放方法,该框架可方便地应用于多角度过程挖掘,并在六个真实事件数据集上进行了验证。
- 关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性
本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法,通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function,证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 - 量子深度循环强化学习
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
- MM基于深度强化学习的 UWB PHY 射频自动运行时适应
该研究旨在提高 UWB 无线通信的可靠性和能效,通过动态选择物理层设置,在真实的办公环境中验证了深度 Q-learning 方法与传统 Q-learning、线性搜索和使用固定物理层相比,能够实现更高的数据包接收率和更少的能量消耗。
- 基于深度强化学习的无人机辅助智能农场网络任务卸载
本篇论文提出了一种基于深度 Q 学习的决策算法,使得使用 UAV 和多接入边缘计算设备的无线网络能够有效地监测农田,通过图像分类来预防火灾或洪水等情况,并且与 Q 学习和三种基线算法相比,本文方法在监测效果和性能方面表现出了可比较的结果,而 - 基于偏好引导的随机探索增强学习高效采样方法
本文提出了一种新颖的基于偏好的 epsilon-greedy 探索算法,以数据效率为主要目标,并使用深度 Q 学习的算法作为研究对象,理论证明了这种算法在策略改进方面的有效性,并且实验证明了与相应的 Q 值风景线的拟合优良以及在四种著名的 - CoNSoLe:凸形神经符号学习
本文提出了 Convex Neural Symbolic Learning(CoNSoLe)框架,通过对深度 Q 学习过程以及符号系数估计两个步骤的凸性分解,使用 Locally Convex Equation Learner(LoCaL) - 时间差分与残差梯度在神经网络逼近中的实验比较
我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的 Bellman 残差误差