本研究提出了一系列用于强化学习的无监督元学习算法,以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担,并得出这些程序具有优异性能的结论。
Jun, 2018
通过在多个商业机器人上实施我们引入的多个强化学习任务,通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度,揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感,为了获得最佳性能需要为每个任务重新调整参数。
Sep, 2018
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法,以实现复杂、长期目标的快速解决,可以显著提高样本效率并减少与环境的交互次数。
Apr, 2022
本研究探讨利用元强化学习方法来通过各种奖励函数快速适应机器人所处的不同环境,提高社交机器人的行为表现,并通过径向基函数图层降低后验坍塌负面影响。
Jun, 2022
本文研究使用 meta-强化学习方法来完成多个视觉基准测试,在评估这些方法时,我们发现在不同的任务上,多任务预训练加微调的性能相当甚至更好,这与使用meta-pretraining和meta test-time adaptation的表现相当。因此我们建议在未来的meta-RL中加入更具挑战性的任务以及多任务预训练和微调作为更简单,强大的基线。
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
本研究基于机器人实验,研究了在多个相关任务中训练深度强化学习模型的样本效率问题,采用一种称为超网络的方法来解决模型泛化问题,并且提出了一种新的超网络初始化策略,该策略在多个模拟机器人基准测试上的表现超过了现有方法。
Oct, 2022
该研究旨在用多任务软演员-评论家算法(MT-SAC)培训机械臂,以使其能够在Meta World环境中成功执行七项不同任务。接下来,训练模型将作为单一生命强化学习算法的先前数据,并通过在各种目标位置(新颖位置)进行测试来评估MT-QWALE算法的效果。最后,通过比较经过训练的MT-SAC和MT-QWALE算法,发现MT-QWALE的表现更好。消融研究表明即使隐藏了最终目标位置,MT-QWALE也能够成功地完成任务,并且所需的步骤略多。
Oct, 2023
离线元强化学习方法(即通过先前经验适应未见的目标任务)在机器人控制任务中至关重要。本文提出了一种名为分离式元强化学习(DCMRL)的框架,通过对任务上下文和技能的学习和探索进行量化和离散化,从而获取可推广的先前经验并在元测试阶段实现对未见目标任务的有效适应。实验证明,DCMRL比先前的元强化学习方法具有更具推广性的先前经验,并在导航和机器人操纵连续控制任务中更加有效。
Dec, 2023