具有非对称距离度量的概率世界建模

Mar, 2024

具有非对称距离度量的概率世界建模

Probabilistic World Modeling with Asymmetric Distance Measure

Meng Song

TL;DR学习一个距离函数对计划和推理在表示空间中至关重要，通过非对称对比学习将概率世界动态嵌入到表示空间中，并通过一个共同参考状态，发现几何上显著的状态作为子目标，有效地发现子目标。

Abstract

representation learning is a fundamental task in machine learning, aiming at uncovering structures from data to facilitate subsequent tasks. However, what is a good representation for planning and reasoning in a

representation learning planning and reasoning distance function asymmetric contrastive learning subgoals

发现论文，激发创造

用非对称规范来近似最小行动距离

本研究提出了一种奖励无关的马尔可夫决策过程的状态表示方法，通过自我监督学习嵌入空间，使得嵌入状态对之间的距离对应于在它们之间转换所需的最小动作数。与之前的方法不同，我们的方法采用了非对称范数参数化，可以在具有固有不对称性的环境中准确近似最小动作距离。我们展示了如何利用这种表示方法来学习目标条件策略，提供了状态和目标之间的相似度概念和有用的启发式距离来指导规划。为了验证我们的方法，我们在对称和不对称环境下进行了实证实验。结果表明，我们的非对称范数参数化在对称环境中与对称范数表现相当，在不对称环境中超过对称范数。

Dec, 2023

基于机器人先验知识的无监督状态表示学习：一个稳健性基准测试

利用神经网络简化世界，构建机器人手臂三维位置的低维状态表示，我们在高维图像中使用先验知识的失真函数学习无监督，并通过加大图像尺寸、添加干扰项和域随机化等手段实现转移学习，检验新先验在表示的稳定性上的贡献。

Sep, 2017

通过预测随机距离进行无监督的表示学习

本研究提出了一种无监督学习方法，通过训练神经网络预测在随机投影空间中的数据距离来学习特征，并在 19 个真实世界数据集上的实证结果证明该方法显著优于几种最先进的竞争方法，尤其在异常检测和聚类任务中表现优异。

Dec, 2019

随机神经网络的表征差异度量空间

通过推广之前提出的形状度量方法，我们定量地比较了神经表示中的随机性差异，并发现神经生物学表示的随机几何形状分别类似于未经过训练和经过训练的深度网络表示。

Nov, 2022

基于模型的自监督功能距离视觉规划

本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法，可用于训练通用机器人执行多种任务，该方法不需要手动设计奖励函数，仅使用无标签数据进行学习，并表现出较高的性能。

Dec, 2020

将世界模型视为图：学习用于规划的潜在地标

该论文提出 L3P 算法，使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数，其在高维连续控制任务上具有优越的性能，是深度强化学习中可扩展规划的重要进展。

Nov, 2020

MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示

本文提出了一种新的行为距离方法，用于深度强化学习智能体的学习表示，并通过理论和实证研究表明，该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题，同时在 Arcade Learning Environment 基准测试中取得了良好的结果。

Jun, 2021

学习使用不确定拓扑地图进行规划

本文采用一种数据驱动的策略和基于图像的规划，应用于 3D 环境中的导航系统，通过机器学习方法实现了图像哈希表上的最短路径规划，比传统符号算法更优秀。

Jul, 2020

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020