损失即奖励：自监督增强学习

Dec, 2016

Loss is its own Reward: Self-Supervision for Reinforcement Learning

Evan Shelhamer, Parsa Mahmoudieh, Max Argus, Trevor Darrell

TL;DR本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失，提高强化学习中的数据效率和策略回报。

Abstract

reinforcement learning optimizes policies for expected cumulative reward. Need the supervision be so narrow? Reward is delayed and sparse for many tasks, making it a difficult and impoverished signal for end-to-end optimization. To augment reward, we consider a range of →

reinforcement learning delayed reward self-supervised tasks representation learning data efficiency

发现论文，激发创造

自监督简化深度强化学习

通过自监督回归学习策略网络，提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL)，该算法无需策略梯度或价值估计，能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美，展示了利用监督学习技术解决强化学习问题的潜力。

Jun, 2021

自监督增强少样本学习的监督

本论文提出了一种利用自我监督任务作为辅助损失函数来改善小型标注数据集上深度表示可迁移性的技术，其中使用自监督损失学习的表示减少了元学习的相对误差率，此方法在各种学习任务中都取得了良好的表现。

Jun, 2019

使用时间变化的自我监督学习密集奖励

本文提出了一种从多模态观察中抽取稠密奖励的更高效和更强韧的方法，在联合装配和开门两个实验设置中测试表明，这种方法在学习稠密奖励方面是有效和高效的，并且学习到的奖励导致更快的收敛。

May, 2022

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020