强化学习中考虑可达性的拉普拉斯表示

Oct, 2022

强化学习中考虑可达性的拉普拉斯表示

Reachability-Aware Laplacian Representation in Reinforcement Learning

Kaixin Wang, Kuangqi Zhou, Jiashi Feng, Bryan Hooi, Xinchao Wang

TL;DR该研究论文介绍了一种基于 Laplacian Representation 并能够有效解决 inter-state reachability 问题的任务无关状态表示方法 RA-LapRep, 该方法能够显著提高 reward shaping 的性能以及帮助发现 bottleneck 状态。

Abstract

In reinforcement learning (RL), laplacian representation (LapRep) is a task-agnostic state representation that encodes the geometry of the environment. A desirable property of LapRep stated in prior works is that

reinforcement learning laplacian representation ra-laprep reward shaping inter-state reachability

发现论文，激发创造

适当的拉普拉斯表达式学习

我们介绍了一种用于近似拉普拉斯表示的理论上可靠的目标及相应的优化算法，通过消除先前逼近的超参数依赖性，我们能够自然地恢复真实特征向量和特征值。我们提供了我们方法的理论保证，并展示这些结果在多个环境中的鲁棒学习表现。

Oct, 2023

强化学习中的拉普拉斯算子：用高效近似学习表示

本文提出了一种全面通用且可扩展的方法，用于在模型自由强化学习 (model-free RL) 的情境下逼近图拉普拉斯算子的特征向量，结果表明我们的技术能够显著提高 RL 代理的性能，适用于目标实现 RL 任务等应用。

Oct, 2018

利用广义图绘制实现更好的拉普拉斯表示在强化学习中

该研究探讨了利用 Laplacian 矩阵对状态进行编码的问题，本文提出了一种新的学习方法，可以为大规模状态空间的强化学习任务提供高质量的 Laplacian 表示，从而产生更好的奖励塑形和探索性选择。

Jul, 2021

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

为数据高效强化学习学习具有时间一致性的表示

本研究提出了一种名为 KSL 的新的表示学习方法，通过自我监督辅助任务，强制执行表示的时间一致性，其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示，可以使 RL 任务的优化更具样本效率，并在 PlaNet 基准测试套件中产生最先进的数据效率和渐近性能结果。

Oct, 2021

具有非对称距离度量的概率世界建模

学习一个距离函数对计划和推理在表示空间中至关重要，通过非对称对比学习将概率世界动态嵌入到表示空间中，并通过一个共同参考状态，发现几何上显著的状态作为子目标，有效地发现子目标。

Mar, 2024

强化学习中表示的泛化

本研究探讨了强化学习中状态表示的泛化行为及具体的有效维度边界，并通过文献调研及案例分析验证了所提出的有效维度理论。

Mar, 2022

可扩展的基于时空运动轨迹的自监督表示学习，用于多模式计算机视觉

本文介绍了一种自我监督的地理位置表示学习技术，使用无标注的 GPS 轨迹学习地理位置的语义特征并为地理计算机视觉任务提供特征表示，通过将 GPS 轨迹建模为地球表面的一些节点或像素，使用卷积、收缩自编码器学习压缩地理位置的可达性嵌入并取得了显著性能提升。

Oct, 2022

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

学习不带重建的强化学习不变表示

研究如何利用表示学习加速深度强化学习，学习能够为任务控制提供有效的潜在表示并具有与任务无关的不变性的表示方法，使用双模拟量度量在连续 MDP 状态之间的行为相似度，学习出能够仅编码来自观测的任务相关信息的健壮潜在表示，该方法通过训练编码器使潜在空间的距离等于状态空间中的双模拟距离，并在修改版的可视化 MuJoCo 任务中证明了其成功地去除任务无关信息且达到了先进技术的表现，测试了第一人称高速公路驾驶任务，其中方法学习了对云、天气和时间的不变性，最后提供了从双模拟度量的属性推导的泛化结果和与因果推断的联系。

Jun, 2020