- AAAI即使学习最弱的学习者,我们也能学到什么?—— 为编程策略学习草图
使用行为克隆进行草图学习可帮助合成程序化策略,与传统方法相比,我们的综合器可以生成优于传统方法和最新竞争方法的策略。
- ICLR重新思考 ValueDice:它真的可以提高性能吗?
该研究探究了 ValueDice 算法在离线和在线设置下相对于经典方法行为克隆的性能改进,发现其离线表现优于行为克隆算法并且可以在低数据情况下通过正则化达到相似的表现。此外,研究还发现,ValueDice 算法存在局限性,只在完整的专家轨迹 - 增强型环境损失自动驾驶车辆行为克隆
该论文提出了两种损失函数(社交损失和道路损失),用于模拟路径规划中的风险社交互动,从而实现更好的驾驶安全性和行为克隆效果。
- AAAI阶段性关注网络(SCAN):一种面向少样本模仿的演示条件策略
本研究提出基于阶段感知的注意力网络用于少样本模仿学习中的复合任务,实验结果表明该模型能够在不需要微调的情况下,从不同的专家中学习,并在可解释的可视化数据中优于基线模型。
- ICML离线强化学习算法:在线评估预算的重要性
本文研究表明,对于深度离线强化学习算法的可靠比较,在线评估预算的重要性,提出采用 NLP 领域的报告工具(期望验证性能)报告深度离线强化学习算法在不同预算下的表现,并且通过使用该工具,当在有限预算内工作时,行为克隆方法往往比离线强化学习算法 - 借助人类反馈递归地对图书进行摘要
本文介绍利用机器学习方法,在小部分任务中辅助人类反馈来逐步完成整个任务, 并用所收集的大量数据 fine-tune GPT-3 模型,将其应用于整本小说的抽象式摘要,最后得到了可以在几个案例中与人类摘要匹配的,甚至匹配人类摘要质量的总结。
- 隐式行为克隆
在机器人策略学习中,使用隐式模型的监督策略学习通常表现更好,这种策略不需要奖励信息,可以学习复杂的行为,并能够在具有高度组合复杂性和毫米级精度要求的任务中学习人类示范的复杂行为。
- IQ-Learn: 逆软 Q 学习用于模仿
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
- CVPR面向端到端自动驾驶的多任务学习与注意力机制
本文提出了一种基于多任务学习和注意力模型的新型自动驾驶条件模仿学习网络,通过解决交通灯反应问题,不仅提高了标准基准测试的成功率,而且具备了响应交通信号的能力。
- 模仿策略与环境的误差界
通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异,本文发现前者相比后者可以减少复合误差,具有更好的样本复杂度,同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型,提出一种全新的模型导向的增强学习 - 关于模仿学习价值偏差的研究
本文提出了一种基于差异传播分析法来分析模仿学习方法理论特性的框架,该框架揭示了模仿学习方法在不同设置下的价值差异。通过理论与实验的结合,我们首次分析了 GAIL 的性能表现,并发现该方法具备比行为克隆更少的复利误差,这为模仿学习算法的未来改 - 模仿学习中的因果混淆
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行 - SQIL: 通过稀疏奖励加强学习实现的模仿学习
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAI - 通过调制 Dropout 提高注视训练的模仿学习
提出一种注入视觉提示帮助神经网络学习人类驾驶行为的方法,该方法通过无需其他输入的方式集成了视线信息并提高了自主驾驶的准确性和鲁棒性。
- IJCAI从观察中进行行为复制
本研究提出了基于行为克隆的观察学习技术,旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务,并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。