- SwiftSage:一种具备快、慢思维能力的生成性代理,用于复杂交互任务
SwiftSage 是一个受到人类认知双过程理论启发的新型代理框架,旨在通过行为克隆和提示大型语言模型的优势来提高任务完成性能,它在 30 项科学世界基准任务中显著优于其他方法。
- Robust Imitation by Return-to-Distribution Planning
本文介绍一种与专家数据收集环境不同的 Imitation Learning(模仿学习)方法,该方法结合行为克隆和计划策略,通过将代理人带回专家访问的状态解决数据分布漂移问题,以提高性能。作者将这一算法命名为 POIR,并在实际的机器人操作模 - 利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用
本研究旨在定义和纳入物理机器人环境中的自然对称,利用行为克隆和强化学习相结合的方法,通过专家演示在对称环境下训练高效的模型无关强化学习策略,为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示,相较于传统的策略外学习算法,该方法具有 - ICLR离线强化学习的行为先验表示学习
该研究提出了一种名为 BPR 的学习状态表示的简单有效方法,结合离线 RL 算法在多个控制基准测试中表现出明显的改进,其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。
- 基于反向模型的少量演示稳健仿真
本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题,利用模型产生短期想象轨迹进行训练,提高了模型的健壮性和适应性。
- 未观测到混杂因素的因果模仿学习
研究表明在模仿学习中,学者提出了一个非参数图形标准来确定模仿的可行性,并建立了一个有效的程序来从专家轨迹中学习模仿策略。
- 仅需一次演示:从单一视觉演示实现类别级别操作
本文提出了一种新颖的基于物体中心、类别级别表示和无模型 6 自由度运动跟踪的类别级别操作框架,它可以从一个演示视频中学习类别级别任务轨迹,并通过运动跟踪执行一个闭环控制方法,完整实现了在工业任务中的推广应用。
- WebGPT: 借助浏览器进行问题回答并获得人类反馈
在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练,通过模仿学习和人类反馈优化答案质量,并使用 ELI5 数据集对模型进行评估和训练,最佳模型通过行为克隆和逆向采样获得,最终得到的答案比 Reddit 上评分最高答案及人类演示者的 - 离线强化学习的极简主义方法
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
- 通过离线数据缓解模仿学习中的协变量漂移
本研究基于静态离线数据,提出了 MILO 框架及算法,用于高效解决无需在线交互式的模仿学习问题,其能够成功应对较弱行为准则下的状态行为的偏移问题,最终成功模仿高水平行为准则的动作。
- 深度视觉自动驾驶系统的可解释性:综述与挑战
这项调查综述了针对基于行为克隆训练的视觉自驾系统的可解释性方法。该综述从计算机视觉、深度学习、自动驾驶和可解释人工智能等多个研究领域收集贡献,并讨论了自驾车的解释性定义、动机、方法以及未来挑战。
- 离线学习:基于演示和无标签经验的学习
本研究提出了一种名为 ORIL 的方法,用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号,通过增强学习来训练机器人,相对于传统的基于行为克隆的方法,它能更好地利用未标记的经验数据,提高训练的效果。
- 通过双层优化实现模仿学习的可证明表示学习
本文研究了在马尔可夫决策过程中多项专家经验和仿真学习设置下的表征学习,并将其实例化到行为克隆和仅观测的仿真学习设置中。理论上,我们展示了在两种设置下,表征学习可以为仿真学习提供样本复杂性优势,并提供了具体实验来验证我们的理论。
- 自主驾驶的深度强化学习:一份综述
本文综述了深度强化学习算法在自动驾驶任务上的应用,包括分类、验证、测试和强化现有强化学习算法解决方案的方法,还介绍了相关领域和挑战。
- 在密集和稀疏奖励环境中融合行为克隆和强化学习以提高性能
本文提出了一个 Cycle-of-Learning 框架,使用基于演示的离策略演员 - 评论家构架,将行为克隆与 1 步 Q 学习损失相结合的损失函数与预训练步骤相结合,从而实现了从行为克隆到强化学习的过渡,并在总体性能和训练时间方面改进了 - 探究自动驾驶行为克隆的局限性
本文介绍一种新的基准测试,以探究行为克隆的可扩展性和限制性,结果表明,行为克隆在复杂的驾驶情况下拥有先进的成果,但是仍存在数据集偏差和过度拟合的问题,缺乏因果模型和培训不稳定性导致进一步的研究需要进行。
- DART:注入噪声以实现鲁棒性模仿学习
提出了一种注入噪音的离策略方法,在演示时将噪音注入到导师的策略中,强制演示如何从错误中恢复。通过 DART 算法在仿真和实验中的比较,证明了该方法的有效性。