用度量残差网络进行高样本效率的目标条件强化学习
我们通过提出一种新的优化目标,在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中,近似计算最优值函数。实验结果表明,我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法,并且在处理高维观测和多目标任务方面也表现出很好的效果。
Feb, 2024
本文介绍了一种新的强化学习(Reinforcement Learning)方法 ——Quasimetric Reinforcement Learning(QRL),该方法利用拟度量结构来学习最优值函数,与以往的方法不同,QRL 目标专门设计给拟度量,并提供了强有力的理论恢复保证。实证分析证明,相比于替代方案,QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能,在基于状态和基于图像的观察中都是如此。
Apr, 2023
通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。
Apr, 2022
无线资源管理的需求增加了对高效无线资源管理的精简神经网络结构的开发的需求。本文介绍了一种针对无线资源管理量身定制的图神经网络(GNN)的新方法:低秩消息传递图神经网络(LR-MPGNN)。该方法基于低秩逼近技术,将传统线性层替换为其低秩对应层,大大减小了模型尺寸和参数个数。通过多个关键指标对提出的 LR-MPGNN 模型的性能进行评估,包括模型尺寸、参数个数、通信系统的加权和速率以及权重矩阵的特征值分布。广泛的评估结果显示,LR-MPGNN 模型的模型尺寸减小了 60 倍,模型参数个数可以减少高达 98%。在性能方面,相对于原始 MPGNN 模型,LR-MPGNN 模型在最佳情况下的规范加权和速率仅降低了 2%,表现出很好的鲁棒性。此外,LR-MPGNN 模型的权重矩阵的特征值分布更加均匀,范围更广,表明了权重的战略性重新分布。
Mar, 2024
多人群平均场博弈模型的研究中,利用均场近似可以找到纳什均衡,在实际应用中,由于普适假设的限制,我们提出了一种基于图纹重抽样的学习框架,用于捕捉智能体连接的复杂网络结构,并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系,提出了一种高效的基于样本的多智能体强化学习算法,而无需进行群体操作,并对其收敛性进行了严格的有限样本保证分析。
Oct, 2023
我们提出了一个样本高效的元强化学习算法,通过学习任务导向方式下的系统模型,在元强化学习中利用价值信息迅速捕捉环境的决策关键部分,并借助损失函数来学习任务推断模块和系统模型,从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线 LQR 问题中进行评估,实证验证了其从观测中提取解决任务所需信息的高效性。
Dec, 2023
提出了一种基于强化学习和元学习的框架来解决 few-shot learning 问题,通过稳定的损失函数来学习最佳的优化算法,从而实现了对参数的更新。实验结果表明该方法在准确率和 NDCG 指标上均超过了现有的替代方法,并且可扩展到网络结构搜索。
May, 2020