用超网络重新组合强化学习构建块
本研究基于机器人实验,研究了在多个相关任务中训练深度强化学习模型的样本效率问题,采用一种称为超网络的方法来解决模型泛化问题,并且提出了一种新的超网络初始化策略,该策略在多个模拟机器人基准测试上的表现超过了现有方法。
Oct, 2022
本文研究了具有二元向量动作的强化学习问题,提出了一种用于逼近二元向量动作价值函数的神经网络有效架构,该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算,并基于 Q-learning 提出了一种在线算法,论文还给出了基于方格世界和块障碍任务的实证结果,表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。
Dec, 2015
通过结合 hypergraph networks framework 和 deep Q-networks 方法,有效提升异构空间下 action-value 估计的表现,包括 Atari 2600 游戏和物理控制基准测试等多个领域。
Oct, 2020
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
Jun, 2024
使用元建模算法 MetaQNN 根据强化学习自动生成高性能卷积神经网络 (CNN) 结构,可以在图像分类基准测试中击败同层级别的现有网络,并且相比其他网络设计元建模方法具有更好的效果.
Nov, 2016
本文使用超网络通过一种新颖的基于时序差分的训练目标和数据来生成在一系列未知任务条件下的行为。通过近乎最优的强化学习解决方案的数据,本研究与元 RL、上下文 RL 和迁移学习有关,着重于测试时的零样本表现,这是由任务参数(也称为上下文)的知识实现的。我们的技术方法是基于将每个 RL 算法视为从 MDP 特定内容到近乎最优值函数和策略的映射,并通过一个超网络来近似该映射,该超网络可以生成近乎最优值函数和策略,给定 MDP 的参数。我们证明,在某些条件下,这种映射可以被认为是一个监督学习问题。我们在从 DeepMind Control Suite 中的一系列连续控制任务中对零样本传递到新的奖励和过渡动态的方法进行了实证评估。我们的方法比来自多任务和元 RL 方法的基线表现有显著提高。
Nov, 2022
本文介绍了一种新的强化学习方法 —— 混合奖励架构(HRA),通过利用分解奖励函数并为每个组成部分学习单独的价值函数来实现应对价值函数无法轻易降维的领域的挑战。在获得 Ms. Pac-Man 游戏高于人类成绩的优异表现后,证明了 HRA 在玩具问题和 Atari 游戏 Ms. Pac-Man 上的有效性。
Jun, 2017
通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。
Apr, 2022
本文介绍了一种基于邻域的多智能体强化学习算法,并提出了两种基于超图结构的变体方法,其中利用超图卷积网络实现了信息提取和表示学习,具有实现有效合作的显著优势。
Mar, 2022
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
Feb, 2024