利用不变性学习基于动作的表示
ReBis 是一种基于图像的强化学习方法,通过整合无奖励控制信息和有奖励特定知识,利用变换器架构来隐式建模动态,并结合分块屏蔽以消除时空冗余。此外,ReBis 将基于双模拟的损失与不对称重构损失相结合,以防止稀疏奖励环境中的特征崩溃。对 Atari 游戏和 DeepMind Control Suit 等两个大型基准进行的实证研究表明,ReBis 相较于现有方法具有卓越的性能,证明了其有效性。
Oct, 2023
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。
Jun, 2020
通过序列动作导致不变表示法(SAR)方法,针对具有视觉干扰的高维观测中准确学习与任务相关的状态表示的问题,本文提出了一种能抵抗干扰的表示学习方法,通过编码器优化学习从而仅保留顺序动作控制信号后的组件,使得智能体能够学习到鲁棒的表示形式,并在实验中展示了该方法在对抗干扰任务和真实世界自动驾驶场景中的有效性。
Sep, 2023
本文提出了一种基于 bisimulation 的模拟器学习方法,在考虑环境变化的情况下,使用备选观测来学习一个对观测变换不变的表示空间,以实现对测试阶段环境的适应,并在高维图像控制领域上进行实证分析。
Jun, 2023
提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性,该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标,并且证明其可以适用于任何由纯状态奖励函数描述的下游任务
Apr, 2022
通过分析发现,离线强化学习任务中缺失的状态转换对于等价关系原则特别有害,导致估计无效。同时,奖励缩放在界定等价度量和其引发的值误差的尺度方面起着至关重要的作用。基于这些发现,我们提出在离线强化学习环境中应用期望分为运算符进行表示学习,从而防止对不完整数据进行过拟合。与此同时,通过引入适当的奖励缩放策略,我们避免了表示空间中特征崩溃的风险。我们在两个最先进的基于等价关系的算法 MICo 和 SimSR 上实现了这些建议,并在两个基准套件 D4RL 和 Visual D4RL 上展示了性能提升。代码可在 https://github.com/zanghyu/Offline_Bisimulation 中找到。
Oct, 2023
用因果对等建模(CBM)方法在有因子的状态空间中学习动力学和奖励函数的因果关系,以得出最小的,任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用,实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外,得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率,并在所有任务中优于基线模型。
Jan, 2024
计算行为的目的性描述和规范性方面包括现行(或未来)世界状况的确定以及对于实现代理人目标的这些状态的可取性的评估;本文提出了一种关于有限代理人中状态表示学习的新理论框架,通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合;我们定义了目标状态表示的一种新的可控性属性来表征其粒度与实现所有目标状态所需的策略复杂性容量之间的权衡;我们提出了一种学习可控状态表示的算法,并通过简单的导航任务演示其有效性;我们的框架强调了有意识地忽视某些信息的重要性,从而学习既具有目标灵活性又简单的状态表示;总体而言,我们的工作为通过目标的视角提供了自然学习和人工学习的统一理论观点迈出了具体的一步。
Jun, 2024
数据驱动方法在机器人控制领域迅速发展,然而对未知任务领域的泛化仍然是一个关键挑战。我们认为泛化的关键在于具备足够丰富的表示以捕捉所有任务相关信息,并且对于训练与测试领域之间的无关变异具有不变性。我们实验研究了这样一种富含深度和语义信息的表示,用于视觉导航,并证明它使得完全在模拟室内场景中训练的控制策略能够泛化到多样的现实环境,包括室内和室外。此外,我们还展示了我们的表示减小了训练和测试领域之间的 A - 距离,从而改善了泛化误差的上界。我们提出的方法是可扩展的:随着基础模型在预训练期间吸收更多多样数据,学习策略会持续改进。
Oct, 2023