控制问题的状态表示学习综述
本文介绍了一种名为 SALE 的新方法,用于学习嵌入,以从低级状态中进行有效的表示学习,并将其与一种自适应检查点方法相结合,形成 TD7 算法,用于连续控制问题,并在 OpenAI gym 基准任务上表现出了显着提高。
Jun, 2023
该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习,该方法包含多个状态表示学习方法,能够提高采样效率、提高性能、抗超参数变化,并编码所有相关特征。
Jan, 2019
从人们定义的相似度中学习表示使机器人能够识别和隔离人们实际关心和使用的因果特征,从而更好地学习他们的喜好和目标。在模拟和用户研究中,我们证明通过这种相似度查询学习可以比自我监督和任务输入等传统的表示学习方法得到更具有一般性的表示。
Jan, 2023
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
计算行为的目的性描述和规范性方面包括现行(或未来)世界状况的确定以及对于实现代理人目标的这些状态的可取性的评估;本文提出了一种关于有限代理人中状态表示学习的新理论框架,通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合;我们定义了目标状态表示的一种新的可控性属性来表征其粒度与实现所有目标状态所需的策略复杂性容量之间的权衡;我们提出了一种学习可控状态表示的算法,并通过简单的导航任务演示其有效性;我们的框架强调了有意识地忽视某些信息的重要性,从而学习既具有目标灵活性又简单的状态表示;总体而言,我们的工作为通过目标的视角提供了自然学习和人工学习的统一理论观点迈出了具体的一步。
Jun, 2024
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018