本研究提出了一种针对强化学习中存在相关特征的高维观察数据的辅助任务方法,通过最小化表示中特征的条件互信息来学习解缠缚表示,以提高对相关性变化的泛化能力。实验结果表明,该方法可以提高强化学习算法的训练性能和泛化能力。
May, 2023
本文提出了一种无监督方法,通过改进 RNN world model 的训练算法和利用 metric learning 映射 RNN memory 到 feature space 中,将 RL 轨迹从隐藏参数对系统行为的影响中解开,从而可对系统中的隐藏参数进行分析和研究。
Nov, 2022
本研究提出了一种两级分层目标函数来控制变量块和块内个体变量之间的相对统计独立程度,以通过非监督学习从高维数据中学习无监督表示,实验结果显示该目标函数可以解开离散变量,并提高其他变量的解开程度和泛化能力。
Apr, 2018
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
通过探究代理与环境的交互作用,并提出一种特定的目标函数,本文证实无需外在激励信号的情况下,能够发现独立可控因素并实现解耦。
Feb, 2018
通过引入时间分离(TED)作为强化学习辅助任务,可以更好地利用序列化 RL 观察结果,学习更健壮的表示形式,从而使 RL 算法对未知环境变量的变化更快地适应。
Jul, 2022
本文旨在研究如何在交互环境中通过找出学习者可控制的因素来寻找控制观察数据变异因素的因素,提出了一种新颖的方法并在实验中进行了测试。
Mar, 2017
本文综合性地回顾了基于直觉和群论的定义的 DRL,将 DRL 的方法学分为四组,最后分析了设计不同 DRL 模型的原则和未来研究方向。
探讨了一种无监督的去卷积方法,在使用没有去卷积术语的生成模型中提取去卷积表示,以获得与现有技术相当的结果。
Feb, 2021
本文提出了一个新的高分辨率数据集,其中包括 1M 个模拟图像和 1800 个带注释的现实世界图像,以评估分解表示学习到未见过的模拟和实际环境中的泛化能力,研究表明分解表示学习是识别未知分布下任务性能的有效预测因素。
Oct, 2020