- 线性函数逼近 SARSA 算法的收敛性:随机时限情况
本研究探究了强化学习算法 SARSA 与线性函数逼近的收敛性问题,将算法应用于随机时长的马尔可夫决策问题中,证明了当行为策略为 ε-soft 且与线性函数逼近的权重向量 Lipschitz 连续时,该算法随机收敛的概率为 1。
- ICML通用效用的强化学习:更简单的方差缩减和大状态行动空间
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
- 使用线性函数逼近进行策略评估的高概率样本复杂度
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达 - 几乎没有通信的分布式 TD (0)
本文提出了一种新的分布式时间差异学习方法,该方法采用 “一次性平均” 策略,在分布式过程结束时平均结果,证明了并行优化对于时间差异方法收敛时间的提升。
- ICML正则化和方差加权回归在线性 MDPs 中实现极小化最优性:理论和实践
本文通过线性函数逼近研究了镜像梯度价值迭代的样本复杂性,并提出了最小最大优化的方案,即方差加权最小二乘 MDVI (VWLS-MDVI),同时提出了 Deep Variance Weighting (DVW) 算法用于基于价值的深度强化学习 - 基于线性函数逼近的纳什 Q 学习的有限样本保证
本研究分析使用线性函数近似的 Nash Q-learning 在多智能体强化学习中学习构成 Nash 均衡的策略,并提供有限样本保证,表明其样本效率。研究发现,该方法的性能与单智能体强化学习相当,且比表格化算法的最佳结果差一个多项式差距。
- 具有对数最坏情况遗憾的量子强化学习的可证明高效探索
我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。
- 组合动作空间中的高效规划及其在合作多智能体强化学习中的应用
本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中,通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求,提出了一种高效的算法,以在所有相关问题参数的多项式计算和查询复杂度内实现计划。
- 线性函数逼近的对抗式 MDP 的精炼遗憾
本文研究了在损失函数任意的情况下,对于线性近似的 Q 函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde {\mathcal - 线性马尔科夫决策过程的近最小值最大化强化学习
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
- 基于线性函数逼近的无奖励强化学习中的近最优部署效率
研究如何在施加 “无回报探索” 的情况下,使用线性函数逼近在提高效率时落地实施策略,最后我们提出了一种新算法,只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹,在不同的奖励函数设定下,即可找到一个 ε- 最优策略,并且在样本复 - 具有线性函数逼近的分布鲁棒离线强化学习
本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法,该方法使用历史数据学习分布式鲁棒的策略,包括线性函数逼近的情况,提出了两种算法,得出了第一个样例复杂度的非渐近性结果,并展示了其在实验上的优越性。
- ICML线性函数逼近下的最小最大优化强化学习
研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+,其在 Bernstein 类型的探索奖励的帮助下,具有常数估计的 L2 误差,并且特别适用于情 - 具有线性函数逼近的可证明高效的无模型约束强化学习
发展第一个无需模拟器的模型自由算法,它在大型系统中实现次线性遗憾和次线性约束违规,并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。
- ICML使用线性结构稳定 Q 学习,以实现证明有效的学习
本文讨论了 $Q$-learning 算法的不稳定性问题,提出了一种基于探索的改进方案。该算法通过结合二阶更新,目标网络等机制,实现了线性 MDPs 的最新遗憾界限,并且算法设计独立于时间步长。此外,该算法表现出一定的实例依赖性,并且在近似 - 线性函数逼近下的近似极小极大离线强化学习:单智能体 MDP 和马尔科夫博弈
本文提出了一种基于悲观主义的离线线性 MDP 算法,核心是使用参考函数进行不确定性分解并利用理论分析证明,该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈,验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 M - 使用线性函数逼近的无奖励模型强化学习
本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程,并提出了一种新算法 UCRL-RFE,其中使用线性函数对状态、动作和下一个状态进行特征映射,能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsi - 基于线性实现最优值函数的 MDP 计划的张量计划及少动作下限
本研究考虑了在线规划中基于生成模型的固定时标马尔可夫决策过程(MDP)中的极小化查询复杂度,特别关注线性函数逼近的情况,并基于先前的研究,都采用了广泛的问题类别,提出了 TensorPlan,可在动作数量固定的情况下实现所有相关数量的多项式 - MM异构电池组最优化循环的强化学习
使用基于线性函数近似的 Q 学习算法优化电池充 / 放电,考虑不同容量、斜坡、损耗和循环成本,目标是通过马尔可夫决策过程最小化电池循环中的退化成本,并设计了一类特殊的核函数以实现价值函数的结构近似。
- 使用线性函数逼近实现高效的本地规划
研究使用线性函数逼近和模拟器的查询和计算高效的计划算法,在这种情况下,我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法,同时证明了我们的算法在特征,有效规划控制范围和目标次