在线元学习之并行算法竞赛

Feb, 2017

Online Meta-learning by Parallel Algorithm Competition

Stefan Elfwing, Eiji Uchibe, Kenji Doya

TL;DR该研究提出了一种名为 OMPAC 的在线元学习算法用于调整强化学习算法中关键的元参数以提高效率，实验证明，该方法可以在 Atari 2600 视频游戏和 Tetris 的问题上实现优越的性能。

Abstract

The efficiency of reinforcement learning algorithms depends critically on a few meta-parameters that modulates the learning updates and the trade-off between exploration and exploitation. The adaptation of the

reinforcement learning meta-parameters ompac method deep sarsa atari 2600 video games

发现论文，激发创造

在线元学习

该研究提出了一种综合了元学习和在线学习范式的在线元学习模型，运用改进后的 MAML 算法，实现连续终身学习，实验结果表明该算法明显优于传统的在线学习方法。

Feb, 2019

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

元学习参数化技能

本研究提出了一种新的参数化技能学习算法，此算法可以学习可转移的参数化技能并将其综合到新的行动空间中，从而支持长视深远任务的高效学习。经实证表明，这种方法可以使代理人解决一组困难的长视深远任务。

Jun, 2022

通过概率模型为基础的元强化学习实现数据高效的任务泛化

PACOH-RL 是一种基于模型的元强化学习算法，用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应，同时利用正则化和认知不确定性量化来引导探索和数据收集，从而在数据有限的情况下实现正向传递，适用于机器人等领域。实验结果表明，PACOH-RL 在适应新动力学条件方面优于基于模型的强化学习和基于模型的元强化学习基准，并在真实的机器人车中展示了在数据稀缺条件下实现高效强化学习策略自适应的潜力。

Nov, 2023

一个自调节的演员 - 评论算法

本文介绍了一种使用 metagradients 自动调整强化学习中超参数的算法 (Self-Tuning Actor-Critic)，此算法能够增加自主任务的数目并使用一个新颖的 leaky V-trace operator 来提高脱机学习的性能。在实验中，使用此算法进行了强化学习实验来证明算法的有效性。

Feb, 2020

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

高效自动化深度强化学习

本文提出了一种基于群体的自动化强化学习（AutoRL）框架，该框架在优化超参数和神经网络结构的同时训练智能体，提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中，我们将元优化所需的环境交互次数减少了一个数量级。

Sep, 2020

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

机器人快速在线适应通过模拟先验元学习嵌入

提出了一种名为 FAMLE 的元学习算法，通过元训练多个起始点来适应不同的机器人动力学，从而在少量数据点的情况下，使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中，FAMLE 相对于基线算法可以更快适应新的损伤。

Mar, 2020