任务诱导的表示学习
本文探索运用物体感知表征学习技术进行机器人任务,自监督学习方法可降低实际世界中收集大量标记数据的成本,该研究展示物体感知表征学习技术在策略学习和物体定位预测方面显著提高了当前技术的效能和表现。
May, 2022
本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法,通过与实际下游控制表现的相关性进行实验,优化了现有自监督学习配方的方法,突出了前向模型、视觉主干大小和无监督目标的重要性。
Aug, 2022
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
通过提出一个奇思妙想的自学习框架,结合强化学习探索数据并训练视觉表示模型,使得机器能够从未标注的大规模图片数据中学习,得到一种强化学习的样本自提取方式,并在实际应用中展现了很好的转移性能。
May, 2021
本文提出了一种基于无监督 RL 策略的数据高效视觉控制的方法,通过使用 Dyna-MPC 等组件的预训练来实现更快的任务适应,并且在大规模实证研究的基础上建立了一种强化学习方法,可以使无监督设计策略的性能大大提高。
Sep, 2022
通过序列动作导致不变表示法(SAR)方法,针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题,本文提出了一种能抵抗干扰的表示学习方法,通过编码器优化学习从而仅保留顺序动作控制信号后的组件,使得智能体能够学习到鲁棒的表示形式,并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。
Sep, 2023
我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架,将代理建模作为表示学习问题,并使用模仿学习和代理识别的算法进行无监督学习,以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中,我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。
Jun, 2018
Proto-RL 是一种基于自我监督的框架,将表示学习与探索相结合,通过原型表示来实现,从而解决了强化学习中表示学习与探索之间的挑战,并在不带下游任务信息的环境中预训练这些任务无关的表示和原型,实现了一组困难的连续控制任务的最新下游策略学习。
Feb, 2021
提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法,并通过辅助损失函数将其融入强化学习目标,在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中,我们的方法比现有的无模型方法表现更好。
Sep, 2023