变量动作环境的 Transformer 作为策略
通过将 transformer 架构与 Proximal Policy Optimization(PPO)相结合,本文引入了一种新颖的框架来解决物联网应用中复杂环境下智能决策中的挑战,通过利用 transformer 的自注意机制,增强了强化学习代理在动态物联网环境中的理解和行动能力,从而提高了决策过程的效率。通过在智能家居自动化和工业控制系统等各种物联网场景中进行实证实验证明了该方法的有效性,显示了决策效率和适应性的显著提高。该研究的贡献包括对处理异构物联网数据中 transformer 的作用进行详尽的探索,对框架在不同环境中性能的全面评估,以及与传统强化学习方法进行的基准测试。结果表明该方法显著提高了强化学习代理在物联网生态系统中应对复杂性的能力,凸显了该方法在物联网领域智能自动化和决策制定领域的潜力。
Apr, 2024
本文提出了一种基于 Transformer 的 Deep Q-Learning 方法,该方法在稳定性和 Atari 基准方面表现良好,并为探究 Transformer 与强化学习之间的关系提供了额外见解。
Oct, 2020
该研究提出了一种基于序列建模的架构,即 “环境变换器(Environment Transformer)”,以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题,并通过该架构提出了一种新的名为 ENTROPY 的强化学习算法,该算法通过通过 “环境变换器” 学习动态模型和奖励函数,并执行离线策略优化。该算法在 MuJoCo 连续控制 RL 环境上进行了评估,结果表明,相对于现有的基于模型的离线方法,ENTROPY 表现出更强大的长期轨迹预测能力,并与目前最先进的基于模型和基于模型的离线强化学习方法相比表现优秀。
Mar, 2023
本文提出了一种基于 Q-learning 的深度强化学习方法 ——Action Q-Transformer (AQT),它引入了一个 Transformer 编码器 - 解码器结构来实现对代理决策的高度可解释性。我们利用 AQT 在 Atari 游戏任务中实现了代理的决策详细分析,并通过实验结果证明了该方法在某些游戏中可以实现比基线更高的性能。
Jun, 2023
本文提出了一种称为 Universal Policy Decoupling Transformer (UPDeT) 的 transformer-based 模型,可插入任何多智能体强化学习管道并具备强大的泛化能力,证明了相对于现有方法具有优异的迁移能力,在大规模 SMAC 多智能体竞争游戏中取得了显著的表现和训练速度(快 10 倍)。
Jan, 2021
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用 Transformer 架构和相关的语言建模技术(如 GPT-x 和 BERT)来解决增强学习任务,其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。
Jun, 2021
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
本文研究使用神经网络来完成深度强化学习中的策略优化,其中包括策略梯度和动作价值函数。在此基础上,通过分析无限维镜像下降的全局收敛性,证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略,且收敛速度为次线性。
Jun, 2019
本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现,发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳,并提供预训练模型和代码以鼓励该方向的进一步研究。
May, 2022
提出了一种将 Transformer 模型与强化学习相结合,并在 BabyAI 任务上表现出色的新方法,其中模型输出既包含动作,也包含文本描述。
Apr, 2023