使用新的模块化架构评估强化学习中的政策、损失和规划组合

Jan, 2022

使用新的模块化架构评估强化学习中的政策、损失和规划组合

Assessing Policy, Loss and Planning Combinations in Reinforcement Learning using a New Modular Architecture

Tiago Gaspar Oliveira, Arlindo L. Oliveira

TL;DR本文提出基于模型的强化学习范式中的新型模块化软件架构和一组可以方便地重复使用和组装以构建新的基于模型的强化学习智能体的构建块，包括规划算法，策略以及损失函数，实验证明了该架构是有用的，可用于研究新环境和技术。

Abstract

The model-based reinforcement learning paradigm, which uses planning algorithms and neural network models, has recently achieved unprecedented results in diverse applications, leading to what is now known as deep reinforcement learning. These agents are quite complex and involve multip

model-based reinforcement learning modular software architecture planning algorithms policies averaged minimax

发现论文，激发创造

基于异构知识的增强模块化强化学习

通过使用调解者选择异质性模块和平稳地融合不同类型的知识，提出了增强型模块化强化学习 (AMRL) 框架，并引入了选择机制的变体，即记忆增强型调解者，以利用时间信息，评估结果表明增强传统模块化 RL 的其他形式的异质知识可以提高性能

Jun, 2023

一种政策控制所有：用于智能体无关控制的共享模块化政策

本文探讨了利用共享模块化神经网络来控制多种智能体形态进行运动，并通过信息传递实现合作从而成功生成跨多种形态的行为。

Jul, 2020

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019

决策堆栈：基于模块化生成模型的灵活强化学习

本研究提出决策栈（Decision Stacks），一种将目标条件策略代理分解为 3 个生成模块的生成框架，其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变，并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果，优于现有方法，并实现了灵活的生成决策制定。

Jun, 2023

多智能体强化学习用于微处理器设计空间探索

本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优于单一代理强化学习算法，如 Proximal Policy Optimization 和 Soft Actor-Critic。

Nov, 2022

使用深度强化学习的星际争霸 II 模块化架构

本研究提出了一种新颖的 StarCraft II AI 模块化架构，其通过分配不同的模块控制游戏的不同方面（例如选址和策略），实现了独立或联合优化，并采用深度强化学习技术，通过自我对战进行训练，对六个模块中的两个模块进行训练，以 94％或 87％的胜率在 Zerg vs.Zerg 比赛中击败了 “Harder （5 级）”Blizzard bot，具有适用性及实用价值。

Nov, 2018

面向策略梯度方法的策略感知模型学习

本文研究了模型基强化学习中模型的学习，提出了基于 Policy-Aware Model Learning (PAML) 的带权损失函数来学习模型，结果证明该方法在某些基准问题上表现良好。

Feb, 2020

神经模块化控制 —— 为具身问答而生

该研究提出了一种模块化的方法，利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行，并使用模块化和语义子目标，通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色，无论是在导航还是问题回答方面均优于前人工作。

Oct, 2018

模块化元学习

本文提出了一种学习一组神经网络模块并以不同方式组合的策略，并通过重复使用模块来实现组合概括，提高机器人相关问题的性能。

Jun, 2018