深度强化学习和信息最大化学习
通过在深度神经网络编码器的输入和输出之间最大化互信息来进行无监督学习表示,该方法将表示的特征与先前分布进行敌对匹配,优于其他无监督学习方法并能够在多个分类任务中与全监督学习相竞争,深度信息最大化(DIM)为特定端点目标的无监督学习表示开启了新的途径。
Aug, 2018
本文介绍一种名为 Video Deep InfoMax (VDIM) 的自监督学习方法,将原 DeepInfoMax 扩展至视频领域,其利用内部结构构建视图,并利用这些视图进行预测任务,从而实现对 UCF-101 数据集的行为识别任务的 SoTA 预测结果。
Jul, 2020
本文着眼于使用基于信念的奖励机制进行深度强化学习,提出了通过最大化任何凸函数的信念来实现近似的预测奖励,为深度强化学习的应用提供了新的解决方案,包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。
May, 2020
本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法,使用深度强化学习方法,并结合自监督目标和对视觉输入和与环境的交互结构的预测,提高了代理器的学习效率,并在 Atari 游戏中显著提高了性能。
Jul, 2020
本文提出了一种自监督表征学习方法,它将对比学习与动态模型相结合,以协同地实现三个目标,即通过最大化信息 NCE 界来诱导线性预测嵌入,通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息,其基于当前动作和当前状态的两个独立增强的嵌入预测,实验表明,与基于对比学习或重建的现有方法相比,我们的方法在样本效率和泛化性能上都取得了更好的结果。
Mar, 2022
本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架,并展示了最大熵范例在 IRL 中的有效训练方法,具有与现有基准相当的性能,超过基于高度变化奖励结构的替代基准。同时,作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。
Jul, 2015
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
采用变分方法联合学习估计互信息和动力学模型的必要数量,提供了一种结合不同形式感兴趣结果的广泛框架,将内部激励与奖励最大化相结合,以增强样本效率并将环境的不确定性纳入决策中。
Oct, 2023