强化学习中特权信息丢弃

May, 2020

Privileged Information Dropout in Reinforcement Learning

Pierre-Alexandre Kamienny, Kai Arulkumaran, Feryal Behbahani, Wendelin Boehmer, Shimon Whiteson

TL;DR本研究探讨了运用特权信息（privileged information）提高机器学习系统的样本效率和性能的方法，研究表明采用 Privileged Information Dropout 在强化学习任务中（无论是基于值还是基于策略的 RL 算法）都比其他方法如蒸馏（distillation）和辅助任务（auxiliary task）具有更优的性能，并能够成功利用不同类型的特权信息，最后分析了其对学习表现的影响。

Abstract

Using privileged information during training can improve the sample efficiency and performance of machine learning systems. This paradigm has been applied to →

privileged information dropout machine learning reinforcement learning sample efficiency performance

发现论文，激发创造

使用异方差 Dropout 的特权信息下深度学习

通过使用特权信息控制不确定性，对卷积神经网络和循环神经网络进行了学习优化，提高了学习的样本效率，并在图像分类和机器翻译中进行了实验证明。

May, 2018

特权知识蒸馏用于模拟到真实策略泛化

本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法，通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示，以弥合仿真与现实之间的差距，并证明该方法比现有方法具有更好的普适性。

May, 2023

基于 PID 思想的归纳偏置在部分可观测控制任务中的应用

本文提出了两种基于 PID 控制器的历史数据编码器，应用于深度强化学习的控制任务中，相比先前方法实现了更好的性能和鲁棒性。

Jul, 2023

学习转移特权信息

在计算机视觉领域引入了一种名为 LUPI 的学习框架，利用属性、边界框或图像标记等特权信息来加快计算机对象识别速度，探索利用多义分类和二分类最大间隔技术来提高分类器在原数据空间的分类能力。同时，研究人员发现利用特权信息能够显著提高分类精度。

Oct, 2014

你的行动言明一切：深度强化学习隐私泄露攻击

本文首次探讨了深度强化学习中可能泄露隐私信息的情况，并提出了两种方法来推断训练后代理的潜在隐私信息。作者在不同情境下进行了大量实验并表明以上两种方法可以有效地从训练后的代理中推断出敏感地图信息。

Apr, 2019

数据聚类的特权信息

本文研究了 Vapnik 的主人公学习理念及其在无监督学习中使用的相关学习。通过提出的 aRi-MAX 方法，KMeans 算法的稳定性得到了改善，并在人工数据集上实现了最佳聚类解的识别。随后，提出了一种基于信息论点积的算法 P-Dot，能够利用各种聚类技巧，单独或组合使用，以融合特权数据和技术数据，以提高聚类效果。文中通过对数字识别任务的应用验证了这些方法在实际情况下的适用性。

May, 2013

通过点对点蒸馏实现鲁棒的领域随机增强学习

此篇研究论文提出了一种名为 P2PDRL 的强化学习方法，通过使用同行之间的在线蒸馏策略来缓解来自随机域的高梯度估计方差和不稳定学习过程的问题，实验结果表明 P2PDRL 能够使学习更加鲁棒，泛化性能也更加优越。

Dec, 2020

带有差分隐私的离线强化学习

我们设计了差分隐私保证的离线强化学习算法，用于学习受个人隐私信息保护的数据驱动决策策略。理论证明和模拟实验表明，这些算法在中等规模数据集上不会牺牲过多效用。

Jun, 2022

利用生成的特权信息进行学习：基于文本到图像的扩散模型

将学习使用特权信息的理论扩展到文本分类领域，提出了一种通过文本 - 图像扩散模型生成人工特权信息的文本分类框架，并将生成的图像和原始文本样本用于训练多模态教师模型，最终将多模态教师的知识融合到文本（单模态）学生模型中，进而通过生成模型引导学生模型的训练，从而在四个文本分类数据集上取得显著的性能提升。

Sep, 2023

有选择性的噪声注入和信息瓶颈在强化学习中的泛化

研究了 RL 领域中常用的一些 regularization 技术，并提出一种名为 Selective Noise Injection（SNI）的技术，将注入噪音的正则化作用维持在一定范围内，同时缓解梯度下降的不良影响。另外还提出了结合信息瓶颈（Information Bottleneck，IB）技术和 SNI 技术的方法，在 Coinrun 普适性测试集上实现了显著的优于现有最先进的结果。

Oct, 2019