一个接着一个:为一个不断变化的世界学习增量技能
本文提出了一种名为'探索、发现、学习'(Explore, Discover and Learn, EDL)的方法,用于在没有面向任务的奖励功能的情况下获取技能,从而解决现有信息理论技能探索算法的覆盖问题,并在受控环境中进行全面的评估
Feb, 2020
提出一个能够在解决真实世界中很多挑战的同时,通过学习'重置技能'来帮助代理人更有效地学习技能的通用博弈形式方法,并实验表明该方法可以显著提高代理人的表现和加速后续学习。
Nov, 2020
本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法,使用互信息框架,引入了 UPSIDE 方法,解决了探索空间覆盖度和导向性之间的平衡问题,通过学习一组多样化的技能,将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。
Oct, 2021
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
Nov, 2022
在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为APART,在简单的网格环境中比以前的方法大大减少了样本数量,研究探究了更简单的算法,通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能,我们相信我们的研究结果揭示了强化学习中技能发现算法成功的关键因素。
Aug, 2023
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完成任务,使用强化学习过程以及独立的视觉-语言模型确保学到的行为的可靠性和可信度,从而使机器人能够高效地提出和完成高级任务。
May, 2024
本研究解决了在没有奖励、示范或子目标的情况下,如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改,研究表明,智能体能够在仅仅通过观察目标状态的情况下,自主学习技能,并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角,具有重要的影响潜力。
Aug, 2024