- 时间逻辑模仿:从演示中学习满足规划的动作策略
本文提出使用状态与运动的离散抽象方法,通过连续策略学习,基于线性时间逻辑公式以确保当前任务在无论是任务层面还是运动层面的干扰下都能顺利完成。
- AAAI异构演示中终身学习的策略探索与混合
本文提出了一种基于 Learning from Demonstration (LfD) 框架的新算法 Dynamic Multi-Strategy Reward Distillation (DMSRD),通过提取不同人给出的演示中的共同知识 - AAAI面向从次优演示中高样本效率的学徒学习
使用 Systematic Self-Supervised Reward Regression(S3RR)框架,通过系统性的替代轨迹退化,可以实现从非优示范中学习的能力,比现有的学习技术更为高效。
- 通过自监督奖励回归学习低效演示
本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数,从而克服了旧方法在使用子优示范时的一些限制,实现了更好的性能。
- 分层解耦控制器的第三人称视觉模仿学习
研究对象学习通用设置,构建代理可从第三人称的视频中学习并操作未见过的物体,通过分层式结构实现,高级模块生成子目标序列,低级控制器实施,无需完整状态信息,实验展示在 Baxter 机器人上完成倒和放置物体等操作。
- VRKitchen:面向任务学习的交互式 3D 虚拟环境
通过 VRKitchen 的虚拟现实环境和集成功能,该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理,使人类教师能够进行演示培训,为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。
- 从演示中学习限制
本论文提出了一种通过 hit-and-run 抽样方法,利用任务演示、成本函数以及系统动力学和控制约束知识,学习跨任务共享的未知约束的方法。该方法可以学习系统动力学的不确定性,学习一定量的约束,并且适用于线性和非线性系统的控制。
- 野外演示学习
通过单个未校准的单目摄像头的未标记生视频数据,利用 Video to Behaviour(ViBe)方法自动标注移动对象,跟踪它们并学习自然行为模型。
- 通过辅助视频中的活动定位,从观察中单次学习多步任务
该研究旨在借鉴人类通过观察上下文完成一次演示学习,使用辅助视频数据和元学习技术,让机器人能够进行一次性的多步任务学习,并最终实现强化学习。通过实验证明了当提供辅助视频并将单个操作进行定位时,机器人可以更有效地学习多步任务并提高性能。
- RGBD 图像中的人体姿态三维估计用于机器人任务学习
利用 RGBD 图像估算 3D 人体姿态,通过关键点检测器和深度信息实现 3D 提升,在真实环境下通过学习演示框架指示服务机器人模仿人类教师的操作,超越了单眼调色板和深度姿态估计方法的性能。
- ICMLTACO: 基于时间对齐的控制任务分解学习
本文提出了一种基于任务草图的弱监督、领域无关的方法,通过将复杂的任务分解为简单的子任务,并在任务草图和演示之间进行对齐,从而学习所需的子策略,从而提高了推广能力,并减少注释工作。
- 来自不完美演示的强化学习
提出了一种名为规范化演员 - 评论家(NAC)的统一增强学习算法,它将从展示中学习的初始化策略网络与环境中推荐的策略网络结合起来,是一种优于现有基线的鲁棒性学习算法,可用于在几个真实驾驶游戏中的表现。
- 将人类领域知识融入大规模成本函数学习
本研究采用预先训练的方式将人类先验知识引入深度逆强化学习,实现了更高的鲁棒性,更明显的障碍物边界以及能够捕捉纯学习模型无法捕捉的障碍物实例,这使得最终的模型可以更准确地处理包括楼梯、坡道和地下通道在内的稀有案例。
- 从感知到决策:用数据驱动的方法实现自主地面机器人的端到端运动规划
本文提出了一种基于神经网络的运动规划方法,使用学习演示来训练机器人在动态障碍物环境下进行端到端导航,此方法可通过原始 2D 激光测距数据将目标位置映射到机器人的导航命令。模型已通过模拟和实际测试的方式进行了有效验证与比较。
- MM探索从演示任务中机器人错误引起的人类内在反应
该研究探讨了通过学习人类示教实现机器人互动反馈的一种可能性 —— 基于双方肢体语言的意义建立,通过人机互动教机器人跳舞,对正确和错误示范进行姿态分析以测量人对机器人的响应。
- 从人类示范中学习软体机器手的熟练操作
本文介绍了一种基于物体为中心示范实现的,用于训练软机械手进行熟练操作的方法,该方法使用增强学习技术,提出了一种新的算法,允许我们混合和选择最可行的示范来学习在硬件上模仿。最后,我们将这种方法应用于 RBO Hand 2 上,并获得了开 /