通过学习技能先验分布,将其用于最大熵强化学习,能够在导航和机器人操作任务中实现有效的技能传输。
Oct, 2020
本文提出了一种深度生成模型的算法,结合静态数据集和动态模型,利用无监督的强化学习探索环境,在时间信息中进行表示学习,并成功地将学习到的表示迁移到视觉和强化学习任务中。
Oct, 2022
本文探索使用辅助任务来塑造潜变量分布的三种方式,并选择响应自编码为辅助任务,以获得更具行动性质的潜变量表示,从而支持端到端对话策略优化,并实现最先进的成功率。
Nov, 2020
本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验,并将其有效地整合到强化学习框架中,以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。
该研究使用学习的潜在状态空间模型,结合目测模型强化学习方法,提出了一种优化潜在状态轨迹的 LatCo 方法,来解决长时程、奖励稀疏的任务。通过序列规划,相比于之前使用的射击方法,该方法在历经时间过程中的效果更好。
Jun, 2021
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024
本文的研究重点是在具有不同形态的机器人操纵器之间传递控制策略。通过将源机器人和目标机器人的状态和动作空间投影到一个共同的潜在空间来实现跨机器人的策略转移。我们使用编码器、解码器和潜在空间控制策略同时进行训练,利用任务表现、潜在动力学一致性和编码器 - 解码器能力来重构原始状态和动作。为了转移学得的控制策略,我们只需要训练目标编码器和解码器来将新的目标领域对齐到潜在空间。我们使用生成对抗训练,通过循环一致性和潜在动力学损失,在目标领域中无需访问任务奖励或奖励调整,展示了模拟环境到真实环境以及不同状态、动作和形态的机器人之间的策略转移。
Jun, 2024
使用潜空间索引演示数据集,成功地利用搜索技术实现基于行为克隆算法的控制,因此收获了具有人类特征、可以适应各种情境的代理行为,比现有的训练模型更加高效,具有无需任务适应等优点。
Jun, 2023
本研究使用随机视频预测学习了捕捉场景动态的潜在变量,同时尽量不受场景内容的影响,从而学习代理的行动空间;该方法在半监督学习下表现相当于现有的完全监督方法,在任务如行动条件视频预测和计划学习行动空间时,需要几个数量级更少的行动标签。
Jun, 2018