基于异构知识的增强模块化强化学习

Jun, 2023

基于异构知识的增强模块化强化学习

Augmented Modular Reinforcement Learning based on Heterogeneous Knowledge

Lorenz Wolf, Mirco Musolesi

TL;DR通过使用调解者选择异质性模块和平稳地融合不同类型的知识，提出了增强型模块化强化学习 (AMRL) 框架，并引入了选择机制的变体，即记忆增强型调解者，以利用时间信息，评估结果表明增强传统模块化 RL 的其他形式的异质知识可以提高性能

Abstract

In order to mitigate some of the inefficiencies of reinforcement learning (RL), modular approaches composing different decision-making policies

reinforcement learning modular approaches decision-making policies augmented modular reinforcement learning memory-augmented arbitrator

发现论文，激发创造

使用新的模块化架构评估强化学习中的政策、损失和规划组合

本文提出基于模型的强化学习范式中的新型模块化软件架构和一组可以方便地重复使用和组装以构建新的基于模型的强化学习智能体的构建块，包括规划算法，策略以及损失函数，实验证明了该架构是有用的，可用于研究新环境和技术。

Jan, 2022

多智能体强化学习用于微处理器设计空间探索

本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法，如 Proximal Policy Optimization 和 Soft Actor-Critic。

Nov, 2022

多智能体强化学习学习和校准异质有界理性市场行为

在代理基模型中，我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术，通过共享策略学习以及代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡，并通过使用策略梯度来学习行为，通过在多个实例中验证，我们证明了该模型在许多常见的代理设置下具有显著改进的预测能力。

Feb, 2024

异质智能体强化学习

本文提出了基于 HARL 算法的新框架 HAML，将多智能体强化学习的合作扩展到异构智能体模式，并对该框架下的多种算法进行了验证和比较。测试表明，HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。

Apr, 2023

超越 Tabula-Rasa: 一种用于物理嵌入式 3D Sokoban 的模块化强化学习方法

该论文探讨了将模块化 RL 方法应用于 Mujoban 任务的可行性，并证明了模块化 RL 方法比仅有一个单一 RL 代理的方法更加优越。

Oct, 2020

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的 MARL 算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。

Aug, 2022

多模态强化学习的有效性：模态对齐与重要性增强

提出了一种新的多模态强化学习方法，通过相似性和重要性对不同模态进行多模态对齐和重要性增强，以学习有效的状态表示并改善强化学习过程，实验证明在学习速度和策略质量方面优于现有方法。

Feb, 2023

决策堆栈：基于模块化生成模型的灵活强化学习

本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Jun, 2023

自适应网格细化的强化学习

本研究提出一种新的有限元自适应网格细化方法，将其视为马尔可夫决策过程，并应用深度强化学习进行训练，从而解决了传统方法对瞬时误差估计的依赖问题，并通过静态函数估计和时间依赖方程等实验验证了该方法的可行性和有效性。

Mar, 2021