关键词non-linear function approximation
搜索结果 - 7
- 开放问题:基于核强化学习的次优遗憾界
强化学习在各种应用领域取得了很大的实证成果。本文探讨了强化学习在非线性函数逼近方面的理论问题,并提出了性能保证的挑战。
- 无限时间平均回报马尔科夫决策过程的强化学习与多项式逻辑函数逼近
我们研究了具有非线性函数逼近的基于模型的强化学习,其中底层马尔可夫决策过程(MDP)的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定,提出了两种算法。第一个算法 UCRL2-MNL 适用于通信 MDP 类,并实现了一种具有 - 脱机强化学习的悲观非线性最小二乘值迭代
提出了一种用于非线性函数逼近的离线强化学习方法 —— 悲观非线性最小二乘值迭代 (PNLSVI),它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关,并在针对线性函数逼近的情况下实现极小化的 - 在线敏感采样下的低转换策略梯度与探索
本文提出了一种 LPO 算法来解决强化学习中的政策优化问题,其中包括限制 eluder 维度和在线灵敏度采样等最近进展的应用,可以实现一定程度的非线性函数逼近,通过使用深度神经网络验证了理论方法的成果。
- 关于非线性强化学习无奖探索的统计效率
本文研究对一般非线性函数逼近的无奖励强化学习,提出了 RFOLIVE 算法以进行样本有效的非线性函数逼近的无奖励探索,并在低秩 MDPs 等假设下给出了正面与负面的结果。
- 使用倒置强化学习学习相对回报策略
研究了倒立强化学习在使用命令指定标量和观察回报之间期望关系方面的潜力以及在 Table 赌博机和具有非线性函数逼近的 CartPole 上实现此类命令的在线学习能力,并展示了此类方法的强大性以及它们在更复杂的命令结构下的实际应用的开放性。
- MADE: 探索性能通过最大化未探索区域的差异
针对在线强化学习中高维稀疏奖励问题,提出一种新的探索方法,通过最大化下一个策略区域探测点的占用偏差,引入自适应正则化项平衡探索和开发,得出一种内在回报函数,可以轻松地与其他现有强化学习算法结合实现探索,实验结果表明,在 MiniGrid 和