二进制向量动作的 Q 网络
本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题,以提高学习效率和最终性能。实验表明,该方法可在不同的任务和算法中得到一致的改进。
Jun, 2021
通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。
Apr, 2022
通过结合 hypergraph networks framework 和 deep Q-networks 方法,有效提升异构空间下 action-value 估计的表现,包括 Atari 2600 游戏和物理控制基准测试等多个领域。
Oct, 2020
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
Jun, 2024
近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力,通过粗糙的动作空间离散化实现了有利的探索特性,而在没有动作惩罚的情况下,最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长,结合解耦的 Q 学习最新成果,将我们的方法扩展到高维动作空间,最多达到 dim (A) = 38。我们的研究表明,自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法,在连续控制任务上表现出令人惊讶的强大性能。
Apr, 2024
本文提出了一种新的神经网络架构,其中包括一个共享的决策模块和几个网络分支,通过允许每个单独的动作维度的独立性,实现网络输出数量与自由度数量的线性增加。通过提出的代理使用比 Deep Deterministic Policy Gradient 算法更适用于具有不断增长的动作自由度的环境的性能和有效性证明了该方法的可扩展性和可行性。
Nov, 2017
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
Act2Vec 是一种通用的框架,用于学习基于上下文的强化学习中的行动表示,在此基础上,该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试,并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中,最终优化了 Q 值函数的近似。
Feb, 2019
值基于强化学习的研究论文,介绍了一种新方法 (iterated Q-Networks),通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近,理论上可行,并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中,通过实验证明了其优势。
Mar, 2024