Jun, 2017
通过强化学习进行观察学习
Observational Learning by Reinforcement Learning
Diana Borsa, Bilal Piot, Rémi Munos, Olivier Pietquin
TL;DR本文探讨了通过机器学习实现观察学习的可行性及其机理,证明基于纯强化学习算法,结合记忆,智能体可以从观察到的任务效果中获取充分的信息,实现类似于社交学习等高级学习技能。
Abstract
observational learning is a type of learning that occurs as a function of
observing, retaining and possibly replicating or imitating the behaviour of
another agent. It is a core mechanism appearing in various instances of social
learning and has been found to be employed in several
发现论文,激发创造
多智能体强化学习实现新兴社交学习
该论文研究在多智能体环境下,独立强化学习代理人是否可以学习使用社会学习来提高性能,并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失,可以获得广义的社会学习策略,使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。
Oct, 2020
通过隐式模仿加速强化学习
本文提出和研究了一种隐含模仿的形式模型,通过观察导师,强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息,并阐述了隐含模仿的好处,通过指导单个和多个导师来证明性能和收敛性有所提高。
Jun, 2011
通过预测观察来模仿
本文基于未来观察奖励模型,提出了一种新的依靠观察数据进行模仿学习的方法,可以在连续控制任务中表现出与人类专家相当的性能,同时在存在与任务无关的观察数据时表现出鲁棒性。
Jul, 2021
强化学习中的观测过拟合
本研究提供了一个分析模型自由的强化学习中可能出现过度拟合的情形的框架,我们对观测空间进行修改以设计多个综合性的基准测试,并通过实验展示了与隐式规范和泛化性之间的关联
Dec, 2019
学习如何激励其他学习智能体
本文提出了在多个智能体环境中,为每个 RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准 RL 和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
通过上下文翻译从原始视频中学习模仿行为
本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法,该方法消除了标准模仿学习对于完全相同环境的假设,并能够从一个演示者的视频中学习各种现实世界中的机器人技能,涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。
Jul, 2017