具有非对称距离度量的概率世界建模
本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法,通过自我监督学习嵌入空间,使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同,我们的方法采用了非对称范数参数化,可以在具有固有不对称性的环境中准确近似最小动作距离。我们展示了如何利用这种表示方法来学习目标条件策略,提供了状态和目标之间的相似度概念和有用的启发式距离来指导规划。为了验证我们的方法,我们在对称和不对称环境下进行了实证实验。结果表明,我们的非对称范数参数化在对称环境中与对称范数表现相当,在不对称环境中超过对称范数。
Dec, 2023
利用神经网络简化世界,构建机器人手臂三维位置的低维状态表示,我们在高维图像中使用先验知识的失真函数学习无监督,并通过加大图像尺寸、添加干扰项和域随机化等手段实现转移学习,检验新先验在表示的稳定性上的贡献。
Sep, 2017
本研究提出了一种无监督学习方法,通过训练神经网络预测在随机投影空间中的数据距离来学习特征,并在 19 个真实世界数据集上的实证结果证明该方法显著优于几种最先进的竞争方法,尤其在异常检测和聚类任务中表现优异。
Dec, 2019
通过推广之前提出的形状度量方法,我们定量地比较了神经表示中的随机性差异,并发现神经生物学表示的随机几何形状分别类似于未经过训练和经过训练的深度网络表示。
Nov, 2022
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
该论文提出 L3P 算法,使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数,其在高维连续控制任务上具有优越的性能,是深度强化学习中可扩展规划的重要进展。
Nov, 2020
本文提出了一种新的行为距离方法,用于深度强化学习智能体的学习表示,并通过理论和实证研究表明,该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题,同时在 Arcade Learning Environment 基准测试中取得了良好的结果。
Jun, 2021
论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用,提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。
May, 2021
研究如何利用表示学习加速深度强化学习,学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法,使用双模拟量度量在连续 MDP 状态之间的行为相似度,学习出能够仅编码来自观测的任务相关信息的健壮潜在表示,该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离,并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现,测试了第一人称高速公路驾驶任务,其中方法学习了对云、天气和时间的不变性,最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。
Jun, 2020