关键词unsupervised reinforcement learning
搜索结果 - 11
- 自适应惊喜内在动机的无监督强化学习
提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。
- 多环境中基于好奇心和熵驱动的无监督强化学习
使用 alpha-MEPOL 方法,在多个环境中处理无监督强化学习,通过对整个环境类的交互进行无任务探索策略的预训练,再使用监督微调该策略来处理不同任务,通过样本轨迹采样、动态 alpha、更高的 KL 散度阈值、基于好奇心的探索以及好奇心 - 多元人工智能监督原则的探索
使用下一个令牌预测训练大型 Transformer 在人工智能方面取得了突破性进展,但这种生成式人工智能方法严重依赖人类监督,我们提出了一种新的自主生成高质量训练数据的范式 —— 探索型人工智能 (EAI),通过利用大型语言模型在自然语言空 - 在球面上无监督地发现连续技能
本文提出了一种称为 DISCS 的学习方法,通过最大化技能和状态间的互信息,学习一种可能的无数不同技能,其中每一个技能对应于球面上的连续值,并且通过在 MuJoCo Ant 机器人控制环境中的实验显示,DISCS 可以比其他方法学习到更多元 - 手掌向上:在潜在空间中进行无监督预训练游戏
本文提出了一种深度生成模型的算法,结合静态数据集和动态模型,利用无监督的强化学习探索环境,在时间信息中进行表示学习,并成功地将学习到的表示迁移到视觉和强化学习任务中。
- 无监督强化学习的混合惊喜
提出了一种名为 MOSS 的策略学习方法,通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明,该方法在无监督强化学习领域达到了最新的最优表现。
- ICLREUCLID: 多项式动态模型的高效无监督强化学习
提出一种高效的无监督强化学习框架(EUCLID),其中引入了一种新颖的模型融合范式,在预训练阶段共同预训练动力学模型和无监督探索策略,从而更好地利用环境样本,提高下游任务的抽样效率,并在操纵和运动领域的实验结果中表现出高样本效率的最先进性, - AAAI多环境下的无监督强化学习
本文提出了一种针对多个环境的无监督强化学习方法,即先通过多个环境的交互数据对策略进行预训练,然后在任意环境下对其进行微调;提出了一种探索策略探索环境中的关键状态;最终通过实验证明了该方法相较从头开始学习的方法明显优势。
- URLB: 无监督强化学习基准测试
通过提出无监督强化学习基准(URLB)并提供开源代码,研究人员比较了八种无监督强化学习方法及其在十二项任务中的表现,发现当前算法仍存在难以适应新任务的局限性,并提出了未来研究方向。
- ICLRSMiRL:降低不稳定环境下惊喜的强化学习
本文提出 SMiRL 这个强化学习方法,该方法能让 agent 通过寻求稳定且可预测的情境,进而与环境中的熵对抗,从而能学会玩俄罗斯方块、Doom,控制机器人躲避跌落,以及在迷宫中躲避敌人而不需要任务特定奖励的监督。
- 变分内在控制
本文介绍一种新的无监督强化学习方法,旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集,并提供隐式和显式的选项表示,提供在特定状态下使用的授权最大化代理所需的显式的授权度量。