一个用于无人值守容器化（深层）强化学习的 Webots 架构

Feb, 2024

一个用于无人值守容器化（深层）强化学习的 Webots 架构

An Architecture for Unattended Containerized (Deep) Reinforcement Learning with Webots

Tobias Haubold, Petra Linke

TL;DR通过分离仿真环境和模型开发环境，并使用独立的仿真软件 Webots、机器人操作系统以及容器技术，我们描述了一种无需数据科学家了解仿真软件的方法，重点关注数据科学家所使用的 API 以及在无人值守训练管道中使用独立的仿真软件。

Abstract

As data science applications gain adoption across industries, the tooling landscape matures to facilitate the life cycle of such applications and provide solutions to the challenges involved to boost the productivity of the people involved. →

data science applications reinforcement learning 3d worlds simulation software unattended training pipelines

发现论文，激发创造

深度 Q-Learning 机器人臂控制的 3D 模拟

该研究旨在使用深度强化学习算法，通过在模拟环境中训练机器人臂完成定位和抓取方块的任务，进而实现在真实场景下机器人控制的无缝转移，并设计了结构化奖励函数以提高训练效率。

Sep, 2016

深度强化学习在预算内的应用: 3D 控制和推理无需超级计算机

本文介绍了使用简化的三维环境 (ViZDoom) 训练智能体进行复杂推理和探索的基准方案，以提高 Deep-RL 领域的可访问性和减少对大量计算资源的需求。

Apr, 2019

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021

教授机器人建立关于自身的仿真模型

通过使用自我监督学习框架，我们使机器人能够只使用简短的原始视频数据来模拟和预测其形态、运动学和运动控制，从而实现了准确的运动规划和异常检测。

Nov, 2023

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

生物和机器人系统无模型强化学习的深入研究：理论与实践

动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架，同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法，我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。

May, 2024

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

用于发展机器人学的开放世界模拟环境

本文介绍 SEDRo，一个模拟环境用于发展性机器人学习模型的训练，模拟婴儿从胎儿时期到 12 个月的成长进程，以发展心理学测试的形式来评估学习模型的进展。

Jul, 2020

DeepSim: ROS 和 Gazebo 的强化学习环境构建工具包

DeepSim 是一个 ROS 和 Gazebo 强化学习环境构建工具包，使机器学习或强化学习研究人员能够访问机器人领域并在 ROS 和 Gazebo 模拟环境中创建复杂和有挑战性的自定义任务。本工具包提供了高级功能的构建模块，如碰撞检测、行为控制、领域随机化、生成器等等。DeepSim 通过提供 Python 接口，旨在减少机器人和机器学习社区之间的边界。我们在本文中讨论了 DeepSim 工具包的组件和设计决策。

May, 2022

在模拟环境中学习如何学习

本研究使用深度强化学习技术训练一种好奇心代理以促进物体检测模型在线学习。我们还提出了一种奖励函数，以权衡代理的两个目标：尽快完成训练或尽可能少地进行人工介入，并考虑了 drone 平台的部分物理特性。

Feb, 2019