用度量残差网络进行高样本效率的目标条件强化学习

Aug, 2022

用度量残差网络进行高样本效率的目标条件强化学习

Metric Residual Networks for Sample Efficient Goal-Conditioned Reinforcement Learning

Bo Liu, Yihao Feng, Qiang Liu, Peter Stone

TL;DR本文介绍了一种基于 Metric Residual Network (MRN) 的神经架构来实现物理机器人中的效率更高的 goal-conditioned reinforcement learning (GCRL)，在 12 个标准基准环境中进行了全面的实验，证明了其在样本效率方面的显着优越性。

Abstract

goal-conditioned reinforcement learning (GCRL) has a wide range of potential real-world applications, including manipulation and navigation problems in robotics. Especially in such →

goal-conditioned reinforcement learning sample efficiency neural architecture metric residual network robotics

发现论文，激发创造

神经网络的黎曼测度 II：循环网络和学习符号数据序列

该研究使用黎曼度量上的梯度上升法作为 RNN 的训练程序，实现了对文本的结构的有效捕捉。

Jun, 2013

基于度量学习的目标条件离线强化学习

我们通过提出一种新的优化目标，在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中，近似计算最优值函数。实验结果表明，我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法，并且在处理高维观测和多目标任务方面也表现出很好的效果。

Feb, 2024

离线目标条件强化学习的评分模型

基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Nov, 2023

基于准度量学习的最优目标达成强化学习

本文介绍了一种新的强化学习（Reinforcement Learning）方法 ——Quasimetric Reinforcement Learning（QRL），该方法利用拟度量结构来学习最优值函数，与以往的方法不同，QRL 目标专门设计给拟度量，并提供了强有力的理论恢复保证。实证分析证明，相比于替代方案，QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能，在基于状态和基于图像的观察中都是如此。

Apr, 2023

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

微型图神经网络用于无线资源管理

无线资源管理的需求增加了对高效无线资源管理的精简神经网络结构的开发的需求。本文介绍了一种针对无线资源管理量身定制的图神经网络（GNN）的新方法：低秩消息传递图神经网络（LR-MPGNN）。该方法基于低秩逼近技术，将传统线性层替换为其低秩对应层，大大减小了模型尺寸和参数个数。通过多个关键指标对提出的 LR-MPGNN 模型的性能进行评估，包括模型尺寸、参数个数、通信系统的加权和速率以及权重矩阵的特征值分布。广泛的评估结果显示，LR-MPGNN 模型的模型尺寸减小了 60 倍，模型参数个数可以减少高达 98%。在性能方面，相对于原始 MPGNN 模型，LR-MPGNN 模型在最佳情况下的规范加权和速率仅降低了 2%，表现出很好的鲁棒性。此外，LR-MPGNN 模型的权重矩阵的特征值分布更加均匀，范围更广，表明了权重的战略性重新分布。

Mar, 2024

基于图分块模型的图零游戏的强化学习方法与重采样

多人群平均场博弈模型的研究中，利用均场近似可以找到纳什均衡，在实际应用中，由于普适假设的限制，我们提出了一种基于图纹重抽样的学习框架，用于捕捉智能体连接的复杂网络结构，并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系，提出了一种高效的基于样本的多智能体强化学习算法，而无需进行群体操作，并对其收敛性进行了严格的有限样本保证分析。

Oct, 2023

元元强化学习与在线 LQR 中的任务相关损失函数

我们提出了一个样本高效的元强化学习算法，通过学习任务导向方式下的系统模型，在元强化学习中利用价值信息迅速捕捉环境的决策关键部分，并借助损失函数来学习任务推断模块和系统模型，从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线 LQR 问题中进行评估，实证验证了其从观测中提取解决任务所需信息的高效性。

Dec, 2023

学习如何学习：元评价网络实现高效学习

本文介绍了一种新颖的、灵活的元学习方法，通过学习一个元批判家实现知识传递，此方法适用于强化学习和监督学习中的 few-shot 和半监督条件。

Jun, 2017

Few-shot 优化的广义强化元学习

提出了一种基于强化学习和元学习的框架来解决 few-shot learning 问题，通过稳定的损失函数来学习最佳的优化算法，从而实现了对参数的更新。实验结果表明该方法在准确率和 NDCG 指标上均超过了现有的替代方法，并且可扩展到网络结构搜索。

May, 2020