适当价值等效性
本文探讨强化学习中的值等价性原则,提出基于值等价性原则的模型学习问题,证明了随着政策和函数集的扩大,价值等价模型的类别将收缩到描述环境的完美模型上,并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义,在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。
Nov, 2020
本文提出了新的模型,称为 “最小价值等效部分模型”,它只对环境的相关方面进行建模。通过实验证明,基于此类模型的规划方法具有可伸缩性和鲁棒性。
Jan, 2023
本文研究了如何在不同领域中转移知识和适应环境,提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略,使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。
Sep, 2018
通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。
Jan, 2019
本文提出了一种新的基于模型的强化学习算法 MPPVE(Model-based Planning Policy Learning with Multi-step Plan Value Estimation),通过引入多步计划来替换多步行动,采用多步计划价值估计来更新政策,从而更好地利用学习到的模型,实现比现有基于模型的强化学习方法更好的样本效率。
Sep, 2022
本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题,通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析,解决了价值函数的定义不唯一的问题,并讨论了相关问题,如状态重置和蒙特卡罗树搜索等。
May, 2019
本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法, 具有收敛性和泛化性,并可以用于处理高度变化的奖励尺度和集成学习等任务。
Mar, 2022
本文研究的问题是如何学习用于风险敏感强化学习的模型。我们提出了通过分布强化学习引入两个新的模型等价概念,可以使我们规划任何风险度量的最优解,但我们还提出了一种实用可行的风险度量模型并展示了我们的框架可以用来增强任何模型无关的风险敏感算法。
Jul, 2023
在模型基于的强化学习中,学习一个生成模型是至关重要的,然而使用近似设置下的有用模型学习是具有挑战性的。最近,Farahmand 等人提出了基于价值感知的模型学习(VAML)目标,该目标在模型学习过程中捕获了价值函数的结构,而使用 Asadi 等人的工具,我们发现最小化 VAML 目标实际上等价于最小化 Wasserstein 度量标准。这种等价关系提高了我们对基于价值感知模型的理解,并且为模型基于的强化学习中的 Wasserstein 应用奠定了理论基础。
Jun, 2018
提出一种名为 UneVEn 的新的多智能体强化学习方法,通过同时学习一组相关任务的通用后继特征的线性分解,并利用已解决的相关任务策略的政策,改善了所有智能体的联合探索过程,从而提高了它们的协调效果,并在多个应用中展示了其性能优于现有方法。
Oct, 2020