BriefGPT.xyz
Ask
alpha
关键词
augmented policy loss
搜索结果 - 1
基于模型的方法提高强化学习效率:借助专家观察
该研究通过采用专家观察(不涉及具体专家行为信息)来改进深度强化学习模型的样本效率,并通过提出一种自动调整增强损失函数中各组成部分权重的算法,证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。
PDF
4 months ago
Prev
Next