- 多智能体强化学习在多个地标检测中的应用
本文提出了一种基于多智能体强化学习的多个解剖标志点检测方法,使用 Deep Q-Network(DQN)架构构建环境和代理,并在训练过程中协作共享累积的知识,相较于现有技术方案,该方法将检测误差减少了 50%, 需要较少的计算资源和训练时间 - 深度 Q 学习的理论分析
本论文从算法和统计角度出发,对深度强化学习中的深度 Q 网络算法进行了理论分析,并给出了收敛速率。作者还提出了 Minimax-DQN 算法,并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。
- 学会什么不去学:深度强化学习中的动作排除
该研究提出了一种名为 AE-DQN 的深度强化学习算法,该算法结合了 Action Elimination Network,并且通过外部环境的淘汰信号来优化选择更优的行为,该算法在纯文本游戏中取得了显著的优势。
- COLING使用文档结构学习长文档中的搜索
基于文档结构的深度 Q 网络架构,通过学习代理跨文档树快速导航与高成本问题回答之间的交替,优化大片文本的阅读理解表现,并在与信息检索(IR)基线的结合中进一步提高性能。
- MOVI:一种无模型动态船舶管理方法
通过一个基于 1500 万次出租车记录的仿真实验,我们展示了一个全新的对于车辆调度问题建模的思路,并且展示了这种思路优于其他传统算法。同时,我们的结果也提示出,在实际场景中,独立决策的分布式策略在实践中更加有效。
- 移动边缘计算中的性能优化:基于深度强化学习的方法
本文提出了一种基于深度强化学习和马尔科夫决策过程的移动边缘计算系统中的任务卸载策略优化算法。实验结果表明,该算法相比基线策略有了显著的平均成本改善。
- 随机协同环境中的加权双重深度多智能体强化学习
本文提出了一种名为 WDDQN 的多智能体深度强化学习框架,通过利用加权双估计器和深度神经网络,在具有原始视觉输入的场景下有效地减少偏差,并引入宽以待人的奖励网络和调度重放策略以实现多智能体领域的有效合作,实验证明 WDDQN 在随机合作环 - 无线网络中动态多通道接入的深度强化学习
研究多通道接入的问题,应用深度 Q 网络实现对于未知系统动态的自适应学习,以最大化长期回报,通过仿真与实际数据跟踪比较表明该方法在更为复杂的情境下具有最佳性能。
- 使用频谱瀑布的抗干扰通信:一种深度强化学习方法
本文提出了一种基于在线学习的反干扰通信方法,使用频谱瀑布直接处理原始信号,通过构建深度 Q 网络和强化学习算法得到最佳反干扰策略,从而避免了需要先估计干扰模式和参数的问题,结果表明该方法可以广泛应用于各种反干扰场景。
- NIPS如何折扣深度强化学习:走向新的动态策略
本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的 - NIPS深度强化学习生成文本
提出了一种基于深度强化学习(Deep Q-Network, DQN)的序列到序列学习中,通过迭代的方式对输出序列进行解码的新型模式,旨在使解码器优先处理较为容易的序列部分,然后再处理较为困难的部分。