通过信息瓶颈学习任务驱动的控制策略
本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序,从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示,进而训练出具有鲁棒性和泛化性的高性能政策。
Feb, 2021
本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法,通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示,以弥合仿真与现实之间的差距,并证明该方法比现有方法具有更好的普适性。
May, 2023
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
本文提出了一种数据有效、基于模型的强化学习算法,通过使用像素信息直接学习闭环控制策略,实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点,并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。
Oct, 2015
通过学习深度的感知动作策略,使用对比学习从输入图像中提取固定特征表示,通过两阶段的作弊式学习框架训练神经网络策略,将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断,无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性,而且可以实现与状态法相同的赛车性能,为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。
Oct, 2022
通过多任务强化学习方法,本文在真实机器人上实现了视觉导向控制策略的快速训练技术,并在模拟和真实世界的 Ball-in-a-Cup 游戏中进行了测试。
Feb, 2019
本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。
Jan, 2019