在复杂环境中产生运动行为

Jul, 2017

Emergence of Locomotion Behaviours in Rich Environments

Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel...

TL;DR本文研究增强学习中环境对复杂行为的促进作用，通过在多个不同环境下训练代理人，使用基于前进步伐的简单奖励函数，利用可扩展的策略梯度强化学习方法，代理人可以学会奔跑、跳跃、蹲下和转弯等复杂行为而无需明确的基于奖励的指导。

Abstract

The reinforcement learning paradigm allows, in principle, for complex behaviours to be learned directly from simple reward signals. In practice, however, it is common to carefully hand-design the reward function

reinforcement learning reward function environment policy gradient complex behavior

发现论文，激发创造

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

学会运动：理解环境设计对于深度强化学习的影响

本文探究了深度强化学习与基于物理原理的动画学习中的 RL 环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果，特别强调其对学习连续动作控制问题的应用的重要性。

Oct, 2020

多智能体竞争引发的紧急复杂性

本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法，这些方法可以训练出丰富多彩、技能复杂的智能体。此外，我们指出，自我对抗训练可以产生超出环境本身复杂性的行为，并且自带课程设置，有助于智能体学习不同难度水平下的技能。

Oct, 2017

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

逆强化学习：从示范中推导与适应双足行走奖励学习

通过逆强化学习 (IRL) 技术解决复杂地形上的双足机器人行走问题，并提出用于学习专家奖励函数的算法，通过非线性函数逼近揭示专家的运动策略，同时通过训练推断奖励函数，提高双足机器人在未知地形上的行走性能。

Sep, 2023

不仅有奖励还有约束：应用于四肢机器人的运动

通过提出一种新颖的深度强化学习框架，我们展示了可用于训练复杂机器人系统的神经网络控制器，该框架通过引入约束条件减少了奖励工程的工作量，并实现了较高的任务绩效。

Aug, 2023

无监督离策略强化学习实现真实世界机器人技能

本文提出的无监督技能发现算法可用于进行高效无监督增强学习，通过模型预测控制将学习到的技能组合用于目标导航。

Apr, 2020

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

通过模仿动物学习敏捷机器人运动技能

本研究提出了一种基于模仿学习的系统，使机器人可以通过模仿真实世界的动物学习敏捷的运动技能，并演示了该系统的有效性。

Apr, 2020