一个用于无人值守容器化(深层)强化学习的 Webots 架构
该研究旨在使用深度强化学习算法,通过在模拟环境中训练机器人臂完成定位和抓取方块的任务,进而实现在真实场景下机器人控制的无缝转移,并设计了结构化奖励函数以提高训练效率。
Sep, 2016
本文介绍了使用简化的三维环境 (ViZDoom) 训练智能体进行复杂推理和探索的基准方案,以提高 Deep-RL 领域的可访问性和减少对大量计算资源的需求。
Apr, 2019
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。
Oct, 2023
动物和机器人存在于物理世界中,并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略(策略)。然而,这些方法的效用超出了特定任务的限制;它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架,同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法,我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。
May, 2024
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016
本文介绍 SEDRo,一个模拟环境用于发展性机器人学习模型的训练,模拟婴儿从胎儿时期到 12 个月的成长进程,以发展心理学测试的形式来评估学习模型的进展。
Jul, 2020
DeepSim 是一个 ROS 和 Gazebo 强化学习环境构建工具包,使机器学习或强化学习研究人员能够访问机器人领域并在 ROS 和 Gazebo 模拟环境中创建复杂和有挑战性的自定义任务。本工具包提供了高级功能的构建模块,如碰撞检测、行为控制、领域随机化、生成器等等。DeepSim 通过提供 Python 接口,旨在减少机器人和机器学习社区之间的边界。我们在本文中讨论了 DeepSim 工具包的组件和设计决策。
May, 2022
本研究使用深度强化学习技术训练一种好奇心代理以促进物体检测模型在线学习。我们还提出了一种奖励函数,以权衡代理的两个目标:尽快完成训练或尽可能少地进行人工介入,并考虑了 drone 平台的部分物理特性。
Feb, 2019