- 基于演示引导的强化学习及高效探索技术用于手术机器人任务自动化
本文介绍了一种基于强化学习的手术自动化算法,使用专家演示数据来提高任务探索效率并克服探索挑战。实验显示该算法在 $10$ 个手术操作任务中取得了显著的提高,并在实际机器人上展示了有效性。
- AAAI对抗性模仿学习中的无标签不完美演示
本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。
- 具有不完美专家演示的贝叶斯 Q-learning
本文提出一种使用少量专家演示来加速 Q-learning 的算法,通过减少对专家数据的依赖程度和逐步降低不相关数据的使用,实现了对数据的更高效利用,实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning - 通过语言动态蒸馏来改善策略学习
通过 Language Dynamics Distillation (LDD) 方法,将语言展示与环境相结合,通过强化学习预训练模型来预测语言关系,从而提高样本效率以及跨环境的泛化能力。
- 鉴别器指导的基于模型的离线模仿学习
该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架,该框架采用协作对抗学习策略,能够显著提高在小数据集下的性能和鲁棒性。
- DM$^2$: 分布匹配的去中心化多智能体强化学习
本研究讨论无集中式组分和显式通讯的分布式多智能体学习,研究表明分布式匹配技术可用于协调独立智能体之间的协作,开发了一种实用的基于样本轨迹的算法(DM^2),已在 StarCraft 领域验证。
- 分治学习模仿
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证 - 最大因果熵逆强化学习入门
本文介绍了反向强化学习领域最受欢迎的 Maximum Causal Entropy (MCE) IRL 算法及其算法实现的压缩推导和关键结果,旨在为新手提供入门资源,也为熟悉这些主题的人提供简洁的参考。
- 从安全专家示范中学习鲁棒输出控制势垒函数
本文就如何通过 ROCBF 来学习安全控制法则进行探讨。同时,提出了从专家演示中学习 ROCBFs 的优化问题,并提供确保 ROCBF 有效性的可验证条件。最后,在 CARLA 自动驾驶模拟器中验证了该发现,并展示了如何通过 RGB 相机图 - ICCV通过模仿强化学习教练实现端到端城市驾驶
通过强化学习教练,我们的端到端自主驾驶智能体实现了与人类专家水平接近的表现,其能够通过鸟瞰图像实现连续的低级别操作,提供可靠的监督信号,从而在 NoCrash-dense 基准测试和 CARLA LeaderBoard 公共路线方面达到了最 - KDD基于 Copulas 的多智能体模仿学习
本论文提出一种使用 copula 来明确建模多智能体系统中相关性和协调性的方法,该方法可以分别学习捕捉每个智能体局部行为模式的边缘分布以及完全捕捉智能体之间依赖结构的 copula 函数,实验结果表明,该模型在动作预测任务中表现优于现有基线 - 通过反向强化学习学习力相关任务的可变阻抗控制
本文提出了一种基于逆强化学习(IRL)的方法,用于从专家演示中恢复可变阻抗策略和奖励函数,通过使用奖励函数的增益空间获得了更好的迁移能力。
- ICLR通过学习演示进行文本生成
本论文提出了一种基于离线强化学习的 “GOLD” 算法,用于解决现有文本生成方式的问题,它通过加权学习参考样本,避免了在线强化学习方法所面临的优化问题,并在题目总结、问题生成和机器翻译等方面取得了比 MLE 和策略梯度更好的自动和人工评价结 - 精细操作的纯状态模仿学习
研究了在复杂领域中,采用反向动力学模型辅助的状态模仿学习方法,并将其与传统的专家演示方法相比,证明了该方法在不同动力学、形态、物体的模拟学习中表现出了良好的优越性能。
- ICML从观察中获取的感知价值
本文探讨了一种用观察进行模仿学习的方法,介绍了一种从观察中直接学习价值的新方法,并证明使用该方法可以显著提高强化学习速度。
- 生成性前继模型用于高效模仿学习
提出了基于生成模型的前身模型的模仿学习算法,能够将状态 - 动作分布与专家演示中观察到的分布匹配,并使用概率化模型对演示状态的可替代历史进行推理,证明这种方法仅需少量专家演示和自我监督交互即可学习出健壮的策略,并在实验中与现阶段的模仿学习方 - 通过特征和演示教授逆强化学习者
研究学习者和专家在视角不一致的情况下,利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了 “教学风险” 概念,衡量在这种情况下,学习者需要付出的非最优代价,提出了专家可以通过更新学习者的视角,降低教学风险的教学方案。
- ICML基于观测的内部模型用于奖励塑造
本研究提出一种新的强化学习方法,即基于内部模型的奖励估计方法,通过预测给定专家状态分布的预测模型来估计奖励,进而直接从专家操作的视频中成功训练出良好的策略。
- 通过回顾性模仿学习搜索
我们提出了一种回顾性模仿学习方法,可以在专家培训后通过学习自己的回溯检查来改进自己的搜索策略,包括通过删除回溯构造改进搜索迹线,具有迭代扩展能力,适用于解决复杂的组合搜索问题。
- NIPS使用深层分层网络生成长期轨迹
本文利用专家示范解决关于建模长时间轨迹的问题,通过提出一种层次化神经网络结构,能够在高维状态空间中,自动识别长短期目标,进而实现不同于传统方法由单一策略为核心,解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例,通过