本文提出了一种离线策略评估算法,该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值,同时提供了一个离线策略优化算法,且具有非渐近性能保证。
May, 2023
本文采用基于 QP(Quadratic Programs)的方法,取代采用 DNN 的方法来学习 RL 中的价值函数和策略,以此提高其可解释性和简化结构,并且给出了调整可解释性和简化结构的方法。
May, 2022
为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战,该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率,并将结构信息的不同模式进行了分类,并提供了设计模式方面的新视角。
Jun, 2023
本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法, 具有收敛性和泛化性,并可以用于处理高度变化的奖励尺度和集成学习等任务。
Mar, 2022
强化学习算法在尺度递增和非结构化观测方面表现良好的方法,能够有效利用外部知识构建预测结构,并提供环境和算法供研究无结构观测向量和平面动作空间的缩放问题。
Nov, 2023
基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度,同时实现了类似的累积奖励。
May, 2024
本文介绍了一种从无指向性状态体验(即(s,s',r)三元组,没有动作标签的状态转换)中学习价值函数的方法,该方法基于 Q-learning 将离散潜在变量预测模型中产生的离散潜在动作与值函数联系起来,并实验证明其效益。
Apr, 2022
提出一种改进目标函数的模型化强化学习算法,通过互信息最大化来学习视觉模型化强化学习的表示和动力学,并将与行动相关的信息优先考虑,同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估,表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。
通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。
本文介绍了一种新的强化学习(Reinforcement Learning)方法 ——Quasimetric Reinforcement Learning(QRL),该方法利用拟度量结构来学习最优值函数,与以往的方法不同,QRL 目标专门设计给拟度量,并提供了强有力的理论恢复保证。实证分析证明,相比于替代方案,QRL 在离线和在线目标达成基准测试中也表现出更好的样本效率和性能,在基于状态和基于图像的观察中都是如此。
Apr, 2023