弱监督政策学习

Oct, 2020

Policy Learning Using Weak Supervision

Jingkang Wang, Hongyi Guo, Zhaowei Zhu, Yang Liu

TL;DR本研究提出了一种基于弱监督学习的框架，通过与所有前置学习 agent 的策略建立相关协议，惩罚过拟合，并在弱监督下对 RL、BC 及标准政策联合训练等任务中得到了显著的性能提升。

Abstract

Most existing policy learning solutions require the learning agents to receive high-quality supervision signals such as well-designed rewards in reinforcement learning (RL) or high-quality expert demonstrations in behavioral cloning (BC). These quality supervisions are usually infeasib

policy learning weak supervision peer agent correlated agreement overfitting

发现论文，激发创造

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

弱监督自训练

本文提出一种基于弱监督、自训练、规则注意力网络和半监督学习的框架（ASTRA），利用所有可用数据来进行深度学习任务的训练，证明其在文本分类上有显著优势。

Apr, 2021

通过全监督学习从弱监督学习中学习

本文介绍了一种在大数据情况下使用弱标签和少量真正标注数据训练神经网络的方法，通过训练目标网络和置信网络来控制目标网络的梯度更新，从而避免使用有噪音标记的数据更新网络权重会影响目标网络模型的品质。

Nov, 2017

交互式弱监督：学习用于数据标注的有用启发式方法

该研究论文展开了交互式弱监督学习框架的研究，该框架中，方法提议启发式方法并从用户每个被提议的启发式反馈中学习，其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能，而不需要访问本文中使用的标签数据。

Dec, 2020

基于收敛上级的同策略机器人仿真学习

本文讨论了在学习策略时，监督者可能会变化的问题，并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外，作者将此框架与一类强化学习算法（DPI）相连，并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果，并提供了多达 80 倍的策略评估加速。

Jul, 2019

使用深度强化学习进行弱监督场景文本检测

本文提出了一个基于弱监督和增强学习的场景文本检测方法，使用神经网络估计强化学习智能体的奖励值，且在真实数据和合成数据相结合的半监督学习中表现最佳。

Jan, 2022

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023