深度分层学习在 Minecraft 中的终身学习方法

Apr, 2016

深度分层学习在 Minecraft 中的终身学习方法

A Deep Hierarchical Approach to Lifelong Learning in Minecraft

Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie Mannor

TL;DR提出了一种能够在 Minecraft 游戏中学习可重用技能的深度技能网络，通过技能精炼和深度技能数组的两种技术将其结合到层次深度强化学习网络中，从而实现具有可重用性的生命周期学习，该网络在 Minecraft 游戏的子域中表现出卓越的性能和低学习样本复杂度。

Abstract

We propose a lifelong learning system that has the ability to reuse and transfer knowledge from one task to another while efficiently retaining the previously learned knowledge-base. Knowledge is transferred by learning reusable skills to solve tasks in →

lifelong learning transfer learning deep reinforcement learning deep skill networks minecraft

发现论文，激发创造

Plan4MC：针对开放世界 Minecraft 任务的技能强化学习和规划

在 Minecraft 环境中，我们使用强化学习技术训练多任务代理，将任务分解成学习基本技能和规划技能这两个步骤，通过提出三种细粒度的基本技能，搭配内在奖励机制使用强化学习训练代理，在学会技能后，我们使用大型语言模型建立技能图模型，并提出技能搜索算法为代理生成适当的技能计划。在实验中，我们成功的完成了 24 个不同的 Minecraft 任务，并得到了比基线算法更好的表现。

Mar, 2023

在 Minecraft 中使用模型学习和蒙特卡罗树搜索实现的深度强化学习

本文提出了一种基于深度神经网络过渡模型和蒙特卡罗树搜索相结合的模型方法，该方法用于解决在 Minecraft 中进行方块放置任务。实验结果表明，该方法可以快速学习且更具训练样本的效率，性能与深度 Q 网络的性能相当。

Mar, 2018

Minecraft 中的无监督技能发现和技能学习

本文介绍了一种使用无监督技术和自监督学习的状态表征方法，可以帮助强化学习智能体快速学习到基本导航技能。在使用像素地图进行评估时，我们发现像素表示和条件政策学习适用于玩具例子，但不适用于逼真和复杂的地图。因此我们还研究了相对位移等替代观测输入。

Jul, 2021

Minecraft 中的记忆、主动感知和动作控制

本文在 Minecraft 中引入了一组新的强化学习任务，并使用这些任务系统地比较和对比现有的深度强化学习架构和我们的新的基于记忆的深度强化学习架构。实验结果表明，我们的新架构相比现有的深度强化学习架构，在未使用的环境中有更好的泛化表现。

May, 2016

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

深度学徒学习在游戏中的应用

这篇论文提出了一种新的学习方法，基于以前在强化学习中的监督学习技术，使用 Atari 游戏的视频帧来教授人工智能代理玩游戏，虽然结果不如强化学习的最新成果，但证明这种方法有潜力并值得进一步研究。

May, 2022

层次化启动在强化学习技能转移中的应用

本文研究了如何将技能融入强化学习智能体的训练，提出了基于技能的新方法 Hierarchical Kickstarting（HKS），并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法，并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。

Jul, 2022

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019

Hi-Core：层次化知识迁移用于连续性强化学习

Hi-Core 是一个新颖框架，用于在连续强化学习中增强高层次的知识传递，并通过大型语言模型（LLM）进行目标设置和低层次策略学习，并通过知识库存储策略实现层次化知识传递，实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。

Jan, 2024

共享知识生命周期学习的轻量级学习器

该研究介绍了一种名为 SKILL (Shared Knowledge Lifelong Learning) 的挑战，它采用了一种去中心化的人工智能智能体种群，每个智能体都被分配了不同的任务，在学习其各自任务后，代理人使用分散的通信网络共享并巩固其知识，以便最终所有代理人都可以掌握所有任务。

May, 2023