利用结构实现基于价值的规划和强化学习

ICLRSep, 2019

利用结构实现基于价值的规划和强化学习

Harnessing Structures for Value-Based Planning and Reinforcement Learning

Yuzhe Yang, Guo Zhang, Zhi Xu, Dina Katabi

TL;DR利用矩阵估计技术，提出了一种利用 Q 函数中的全局低秩结构来提高经典控制器和深度强化学习性能的方案。在控制任务和 Atari 游戏中进行的实验证实了该方法的有效性。

Abstract

value-based methods constitute a fundamental methodology in planning and deep reinforcement learning (RL). In this paper, we propose to exploit the underlying structures of the state-action value function, i.e.,

value-based methods state-action value function q function low-rank structure matrix estimation

发现论文，激发创造

具低秩结构的离线强化学习矩阵估计

本文提出了一种离线策略评估算法，该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值，同时提供了一个离线策略优化算法，且具有非渐近性能保证。

May, 2023

基于 QP 和 MPC 的强化学习之间的桥梁

本文采用基于 QP（Quadratic Programs）的方法，取代采用 DNN 的方法来学习 RL 中的价值函数和策略，以此提高其可解释性和简化结构，并且给出了调整可解释性和简化结构的方法。

May, 2022

强化学习中的结构：综述与开放问题

为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战，该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率，并将结构信息的不同模式进行了分类，并提供了设计模式方面的新视角。

Jun, 2023

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

面向能适应非结构化数据的无模型强化学习算法的发展

强化学习算法在尺度递增和非结构化观测方面表现良好的方法，能够有效利用外部知识构建预测结构，并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。

Nov, 2023

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024

从无向状态经验中学习价值函数

本文介绍了一种从无指向性状态体验（即（s，s'，r）三元组，没有动作标签的状态转换）中学习价值函数的方法，该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来，并实验证明其效益。

Apr, 2022

基于视觉模型的强化学习中通过赋能实现信息优先级排序

提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。

Apr, 2022

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

基于准度量学习的最优目标达成强化学习

本文介绍了一种新的强化学习（Reinforcement Learning）方法 ——Quasimetric Reinforcement Learning（QRL），该方法利用拟度量结构来学习最优值函数，与以往的方法不同，QRL 目标专门设计给拟度量，并提供了强有力的理论恢复保证。实证分析证明，相比于替代方案，QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能，在基于状态和基于图像的观察中都是如此。

Apr, 2023