在线元学习之并行算法竞赛
本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标,并灵活地以深度神经网络为参数。随着时间的推移,该算法可以学习如何学习,最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。
Jul, 2020
本研究提出了一种新的参数化技能学习算法,此算法可以学习可转移的参数化技能并将其综合到新的行动空间中,从而支持长视深远任务的高效学习。经实证表明,这种方法可以使代理人解决一组困难的长视深远任务。
Jun, 2022
PACOH-RL 是一种基于模型的元强化学习算法,用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应,同时利用正则化和认知不确定性量化来引导探索和数据收集,从而在数据有限的情况下实现正向传递,适用于机器人等领域。实验结果表明,PACOH-RL 在适应新动力学条件方面优于基于模型的强化学习和基于模型的元强化学习基准,并在真实的机器人车中展示了在数据稀缺条件下实现高效强化学习策略自适应的潜力。
Nov, 2023
本文介绍了一种使用 metagradients 自动调整强化学习中超参数的算法 (Self-Tuning Actor-Critic),此算法能够增加自主任务的数目并使用一个新颖的 leaky V-trace operator 来提高脱机学习的性能。在实验中,使用此算法进行了强化学习实验来证明算法的有效性。
Feb, 2020
本文研究了跨多任务的在线学习问题,设计了一个统一的元算法,旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证,通过任务平均后悔的降低来提高性能。
May, 2022
本文提出了一种基于群体的自动化强化学习(AutoRL)框架,该框架在优化超参数和神经网络结构的同时训练智能体,提高了元优化的采样效率。在 MuJoCo 基准套件中的 TD3 算法中,我们将元优化所需的环境交互次数减少了一个数量级。
Sep, 2020
本研究基于元强化学习框架,探究了在人机交互中,通过基于偏好的反馈,而非数值奖励,在少数试验中快速调整策略以适应新任务的机制,并通过信息论技术设计问题序列来最大化人类专家的信息获取效率,实验结果表明其显著优于传统算法。
Nov, 2022
提出了一种名为 FAMLE 的元学习算法,通过元训练多个起始点来适应不同的机器人动力学,从而在少量数据点的情况下,使机器人能够选择最适合的起始点以适应当前的情况。在模拟和真实的机器人任务中,FAMLE 相对于基线算法可以更快适应新的损伤。
Mar, 2020