通过强化学习进行观察学习

Jun, 2017

Observational Learning by Reinforcement Learning

Diana Borsa, Bilal Piot, Rémi Munos, Olivier Pietquin

TL;DR本文探讨了通过机器学习实现观察学习的可行性及其机理，证明基于纯强化学习算法，结合记忆，智能体可以从观察到的任务效果中获取充分的信息，实现类似于社交学习等高级学习技能。

Abstract

observational learning is a type of learning that occurs as a function of observing, retaining and possibly replicating or imitating the behaviour of another agent. It is a core mechanism appearing in various instances of social learning and has been found to be employed in several

observational learning machine learning reinforcement learning social learning intelligent species

发现论文，激发创造

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

通过隐式模仿加速强化学习

本文提出和研究了一种隐含模仿的形式模型，通过观察导师，强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息，并阐述了隐含模仿的好处，通过指导单个和多个导师来证明性能和收敛性有所提高。

Jun, 2011

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

通过预测观察来模仿

本文基于未来观察奖励模型，提出了一种新的依靠观察数据进行模仿学习的方法，可以在连续控制任务中表现出与人类专家相当的性能，同时在存在与任务无关的观察数据时表现出鲁棒性。

Jul, 2021

强化学习

观察天体和提高我们对其科学知识的理解涉及繁琐的计划、安排、数据收集和后处理。本文将介绍强化学习的最新进展，以及它如何为天文学带来益处。

May, 2024

网络强化学习的因果性质

强化学习和因果建模在互补中相当自然地互相配合。本研究论文考察了哪些强化学习设置可以受益于因果建模，以及如何进行。

Mar, 2024

强化学习：一项调查

本论文从计算机科学的角度调查了强化学习领域，包括历史、现状和实践应用等方面，并重点探讨了强化学习中的中心问题，如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。

May, 1996

强化学习中的观测过拟合

本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架，我们对观测空间进行修改以设计多个综合性的基准测试，并通过实验展示了与隐式规范和泛化性之间的关联

Dec, 2019

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个 RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准 RL 和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

通过上下文翻译从原始视频中学习模仿行为

本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法，该方法消除了标准模仿学习对于完全相同环境的假设，并能够从一个演示者的视频中学习各种现实世界中的机器人技能，涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。

Jul, 2017