提高强化学习中的数据效率：基于网格信息传播的新想象力机制

Sep, 2023

提高强化学习中的数据效率：基于网格信息传播的新想象力机制

Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation

PDF

Zihang Wang, Maowei Jiang

TL;DR通过引入想象力机制，提高强化学习算法的数据效率，并在四个主流算法（SAC、PPO、DDPG 和 DQN）中得到了相对较好的性能提升。

Abstract

reinforcement learning (RL) algorithms face the challenge of limited data efficiency, particularly when dealing with high-dimensional state spaces and large-scale problems. Most RL methods often rely solely on state transition information within the same episode when updating the agent

reinforcement learning data efficiency imagination mechanism rl algorithms sota rl models

发现论文，激发创造

混合信息驱动多智能体强化学习

利用信息理论模型作为启发式算法来帮助大规模稀疏状态的代理系统寻找高级策略的混合信息驱动多代理强化学习（MARL）方法被提出和研究。通过初步实验结果表明，这一方法可以使代理系统在探索稀疏状态空间方面获得高达三个数量级的有效性提升。

Feb, 2021

想象策略：利用生成点云模型学习操作策略

我们提出了一种新颖的多任务关键帧策略网络 —— 想象策略，用于解决高精度拾取和放置任务。通过生成点云来想象所需的状态，然后使用刚性动作估计将其转化为动作，将动作推理转化为局部生成任务。我们利用任务中的拾取和放置对称性在生成过程中实现极高的样本效率和对未见配置的泛化能力。最后，与几个强基准方法相比，我们在 RLbench 基准测试的各种任务中展示了最先进的性能。

Jun, 2024

基于位置感知模仿环境的深度强化学习在 RIS 辅助下的毫米波 MIMO 系统中的应用

本文提出了一种基于位置感知仿真环境的深度强化学习算法，用于协同波束形成设计的可重构智能表面 (mmWave) 多输入多输出系统中，仿真结果表明所提出的算法具有更为鲁棒的性能。

May, 2022

想象，初始化和探索：一种有效的多智能体强化学习探索方法

通过使用一种新的方法，称为 Imagine, Initialize, and Explore (IIE)，该方法使用转换模型使多个智能体达到关键状态，并以此为起点进行探索，实现高效多智能体探索。在实际测试中，IIE 在复杂环境下表现出优异的性能，超过了其他多智能体探索基线，特别在稀疏奖励任务中有更好的表现，并产生比 CVAE-GAN 和扩散模型更有效的课程。

Feb, 2024

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022

疑虑时，慢思考：具有潜在想象力的迭代推理

我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Feb, 2024

VIME：变分信息最大化探索

本篇论文提出了一种基于变分信息最大化探索的方法 VIME，使用贝叶斯神经网络中的变分推断实现，能有效处理连续状态和动作空间，在多种连续控制任务和算法中表现显著优于启发式探索方法。

May, 2016

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

在信任状态之前双重检查：基于模型的想象中的置信度感知双向离线模型

本文提出一种置信度感知的双向离线模型想象算法，使用训练好的双向动力学模型和推进策略来扩充离线数据集，以增强在线学习的推广能力。实验结果表明，该算法显著提高了现有模型无关的线下 RL 算法的性能，并与基线方法相比获得了竞争性或更好的得分。

Jun, 2022

EMI: 互信息探索

提出了一种名为 EMI 的探索方法，它利用内在动机通过状态和行动的嵌入表示来引导探索，用于解决强化学习中奖励信号稀疏的问题，取得了具有竞争力的结果。

Oct, 2018