二进制向量动作的 Q 网络

NIPSDec, 2015

Q-Networks for Binary Vector Actions

Naoto Yoshida

TL;DR本文研究了具有二元向量动作的强化学习问题，提出了一种用于逼近二元向量动作价值函数的神经网络有效架构，该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算，并基于 Q-learning 提出了一种在线算法，论文还给出了基于方格世界和块障碍任务的实证结果，表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。

Abstract

In this paper reinforcement learning with binary vector actions was investigated. We suggest an effective architecture of the neural networks

reinforcement learning binary vector actions neural networks q-learning approximation architecture

发现论文，激发创造

用超网络重新组合强化学习构建块

本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题，以提高学习效率和最终性能。实验表明，该方法可在不同的任务和算法中得到一致的改进。

Jun, 2021

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

在动作顶点上学习表示动作价值的超图

通过结合 hypergraph networks framework 和 deep Q-networks 方法，有效提升异构空间下 action-value 估计的表现，包括 Atari 2600 游戏和物理控制基准测试等多个领域。

Oct, 2020

多智能体深度网络下的多样化 Q - 向量强化学习

本论文扩展了之前的研究，提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络（DQN）算法，并在双机械臂合作举起锅的环境中展示了这种方法的有效性。

Jun, 2024

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

深度强化学习中的动作分支体系结构

本文提出了一种新的神经网络架构，其中包括一个共享的决策模块和几个网络分支，通过允许每个单独的动作维度的独立性，实现网络输出数量与自由度数量的线性增加。通过提出的代理使用比 Deep Deterministic Policy Gradient 算法更适用于具有不断增长的动作自由度的环境的性能和有效性证明了该方法的可扩展性和可行性。

Nov, 2017

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

迭代 Q 网络：超越一步 Bellman 算子

值基于强化学习的研究论文，介绍了一种新方法 (iterated Q-Networks)，通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近，理论上可行，并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中，通过实验证明了其优势。

Mar, 2024