损失即奖励:自监督增强学习
通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题的潜力。
Jun, 2021
本论文提出了一种利用自我监督任务作为辅助损失函数来改善小型标注数据集上深度表示可迁移性的技术,其中使用自监督损失学习的表示减少了元学习的相对误差率,此方法在各种学习任务中都取得了良好的表现。
Jun, 2019
本文提出了一种从多模态观察中抽取稠密奖励的更高效和更强韧的方法,在联合装配和开门两个实验设置中测试表明,这种方法在学习稠密奖励方面是有效和高效的,并且学习到的奖励导致更快的收敛。
May, 2022
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
Jun, 2020
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016
本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明,这种学习到的子空间可实现高效探索,并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。
Apr, 2020
本文提出一种局部约束表示法,通过对环境观测状态的预测及邻近状态的表示作为辅助损失,将强化学习中的表示与任务相分离,可以提高泛化能力,有效应用于连续控制任务中。
Sep, 2022