基于向量量化模型的分层仿真学习
该研究提出了一种名为向量量化的强化学习插件框架,基于向量量化编码的辅助分类任务将状态特征聚类,以提高深度强化学习方法的可解释性,并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险,该方法在模拟中证明了其提高了可解释性,并研究了其对深度 RL 鲁棒性和泛化能力的影响。
Nov, 2022
我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化,并通过图形恢复离散观测之间的时序关系。同时,我们提出了考虑不确定性和时间距离的课程目标,这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索,且在各种目标达成任务中,甚至使用自我中心视觉输入时,该方法在数据效率和性能上都优于最先进的课程增强学习方法。
Oct, 2023
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
提出了一种具备学习选择子目标的规划和行动架构,可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构,并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明,与其他方法相比,该模型在计划质量(计划长度)和时间要求方面表现更好,既比标准的深度 Q 学习更具样本效率,又可以更好地泛化到不同的关卡,同时较现有最先进的自动规划器缩短问题解决时间,但相应地得到的计划行动增加了 9%。
Jun, 2024
通过在一个学习好的世界模型的潜在空间 planning,我们引入了一种名叫 Director 的实用方法,直接从像素学习分层行为,无需手动指定目标空间或子任务,并在具有稀疏奖励的任务中表现超越了探索方法。
Jun, 2022
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。
Jun, 2021
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
该研究提出了一种模块化的方法,利用语言输入学习长期规划的导航策略。他们的分层策略在多个时间尺度上运行,并使用模块化和语义子目标,通过模仿学习和强化学习相结合的方法在 EQA 基准上表现出色,无论是在导航还是问题回答方面均优于前人工作。
Oct, 2018
本研究旨在应对层次化强化学习中确定合适的低级策略的挑战,提出基于不对称自我对弈的无监督学习方案,自动学习环境中子目标的好的表示和可执行的低级策略,从而高级策略可以通过生成连续子目标向量序列来指导低级策略。实验结果表明,该模型在 Mazebase 和 Mujoco 环境中获得了令人信服的性能提升。
Nov, 2018