DCT: 大离散行动空间的强化学习行动嵌入的双通道训练

Jun, 2023

DCT: 大离散行动空间的强化学习行动嵌入的双通道训练

DCT: Dual Channel Training of Action Embeddings for Reinforcement Learning with Large Discrete Action Spaces

Pranavi Pathakota, Hardik Meisheri, Harshad Khadilkar

TL;DR本文提出了一种新颖的框架来 efficiently learn action embeddings，并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。

Abstract

The ability to learn robust policies while generalizing over large discrete action spaces is an open challenge for intelligent systems, especially in noisy environments that face the curse of dimensionality. In this paper, we present a novel framework to efficiently learn →

robust policies discrete action spaces action embeddings encoder-decoder architecture reinforcement learning

发现论文，激发创造

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

基于动作嵌入的多领域对话策略的强化学习

该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量，具体方法为学习领域无关的动作嵌入，这些嵌入能够更快速准确地在模拟环境中训练策略。

Jul, 2022

学习具有行动嵌入的可转移动作策略

本文提出了一种通过学习状态嵌入和动作嵌入来跨不同状态和动作空间传递策略的方法，实验结果表明该方法不仅可以学习有用的动作嵌入，而且可以加速策略学习。

Sep, 2019

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

多任务策略训练中的简单自发行为表示

该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Oct, 2022

MAN: 多动作网络学习

我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题，并实验验证得出，MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。

Sep, 2022

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

紧凑潜在动作空间中的有效规划

该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Aug, 2022