Dec, 2023

元元强化学习与在线LQR中的任务相关损失函数

TL;DR我们提出了一个样本高效的元强化学习算法,通过学习任务导向方式下的系统模型,在元强化学习中利用价值信息迅速捕捉环境的决策关键部分,并借助损失函数来学习任务推断模块和系统模型,从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线LQR问题中进行评估,实证验证了其从观测中提取解决任务所需信息的高效性。