SplAgger: 元强化学习的拆分聚合
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探索,实验结果表明该方法能够准确推断潜在任务参数, 并比现有的元强化学习和分层强化学习方法更有效地适应。
Jan, 2020
本研究提出了一种 meta-RL 方法,通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力,使用任务编码器生成任务嵌入并在所有任务之间共享策略,实现在训练和新任务上的更好学习能力和更高回报率。
May, 2019
使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型,在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小,其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能
Mar, 2017
本文提出了一种层次算法用于从演示中学习序列模型,可解决强化学习中的任务策略估计问题,通过选择子目标来指导低层控制器完成任务,改善了以往方法的性能,并证明了其在多项任务中优于基线方法,表明层次模型适用于从演示中学习序列模型。
Sep, 2022
本文提出了一个自适应聚合框架,用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识,并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明,与几种基线相比,我们的算法可以实现更少的安全违规,同时显示更好的数据效率。
Feb, 2023
本研究提出基于多任务子任务图推断的少样本强化学习方法,通过推断训练任务的高层子任务图结构,提高在测试任务中的任务推断和适应能力,实验结果表明其能够学习并利用任务的潜在共同结构,比其他现有算法如元强化学习、分层强化学习和启发式智能体等更快地适应未见过的任务。
May, 2022
本文研究机器学习领域中的强化学习问题,主要关注于学习能够适应不同环境的策略,探讨数据增强、元学习和对抗训练三种可能的策略泛化方法,发现数据增强方法是有效的,并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。
Sep, 2018
提出了一种基于强化学习和元学习的框架来解决 few-shot learning 问题,通过稳定的损失函数来学习最佳的优化算法,从而实现了对参数的更新。实验结果表明该方法在准确率和 NDCG 指标上均超过了现有的替代方法,并且可扩展到网络结构搜索。
May, 2020