隐式多任务强化学习问题的政策调整方法

Aug, 2023

隐式多任务强化学习问题的政策调整方法

A Policy Adaptation Method for Implicit Multitask Reinforcement Learning Problems

Satoshi Yamamori, Jun Morimoto

TL;DR在动态运动生成任务中，微小的策略参数变化可能导致完全不同的结果。本研究提出了一种多任务强化学习算法，用于适应单一运动类别中目标或环境的隐式变化，通过不同的奖励函数或物理环境参数。使用单脚机器人模型对球的头球任务进行了评估，结果表明该方法能够适应目标位置或球的恢复系数的隐式变化，而标准的领域随机化方法无法适应不同的任务设置。

Abstract

In dynamic motion generation tasks, including contact and collisions, small changes in policy parameters can lead to extremely different returns. For example, in soccer, the ball can fly in completely different d

dynamic motion generation tasks policy parameters multitask reinforcement learning algorithm implicit changes standard domain randomization approach

发现论文，激发创造

强化学习中动态物体的运动感知

本文研究了动态环境下机器学习控制问题，提出了显式地学习动作表示可以提高学习控制器的质量，在某些情况下不需要额外的监督，通过使用图像差异来替代时序帧堆叠能够取得更好的效果。

Jan, 2019

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在 KUKA LBR 4 + 机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

强化学习中的单集策略转移

为了实现在只进行一次尝试的测试时间内进行最优化，特别是在没有对丰富奖励的访问权下，我们提出了一种通用算法，该算法通过优化探针和推理模型来快速估计测试动态的潜在变量，然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法，并且不需要在测试时间访问奖励，可以在现有的自适应方法无法适应的设置中执行，是一种优秀的迁移方式。

Oct, 2019

使用先前政策指导的强化学习对双臂自由浮动空间机器人进行运动规划

我们提出了一种新的算法 EfficientLPT，通过使用混合策略、引入先验知识，以及采用无穷范数构建合理的奖励函数来提高强化学习方法的规划精度，从而解决了双臂自由浮动空间机器人动作规划中无法捕捉非合作对象的问题，并通过旋转速度不同的物体捕获任务验证了该方法的有效性。

Sep, 2022

MANGA: 方法无关的神经策略泛化与适应

该论文介绍了一种名为 MANGA 的神经策略泛化和适应方法，通过分离策略学习和系统识别的过程，将学习到的策略有效地转移到具有不同动态参数和电机噪声变化的未知环境中，我们通过 4 个不同的 MuJoCo 代理实验来证明了该方法的有效性。

Nov, 2019

学习可迁移的单目响应式微型飞行器控制策略

提供了一个通用框架用于学习可转移的运动策略，旨在适应一些相似的场景，以解决自主机器行为的问题，并通过户外杂乱环境中的大量实际飞行实验证明了该方法的有效性。

Aug, 2016

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Mar, 2024

通过多个对抗性运动先验在强化学习中进行高级技能训练

本文提出了一种基于对抗性先验的多样式强化学习方法，通过引入多种风格的先验知识，成功实现了机器人在不同风格下的运动控制和技能学习，无需人工设计奖励函数。

Mar, 2022