- 热启动变分量子策略迭代
提出了可伸缩的变化量子策略迭代算法(WS-VarQPI),通过纳斯塔量子超强子程序来解决决策问题的线性系统,为潜在的量子计算机的优势奠定了基础。
- 针对环境异质性的联邦策略优化中的客户端选择
本论文探索了近似策略迭代(API)在联邦学习中的应用,引入了客户端选择算法来解决环境异质性带来的估计误差,理论和实验结果表明该算法可以在联邦学习中显著降低估计误差。
- 基于协同马尔可夫决策过程系统的人机共适应界面
本文提出了一种基于模型的强化学习的方法,即协同适应 MDPs 模型,可用于人机界面和康复系统中,可以提高用户(患者)和机器(机器人助手)的表现效果,并强调了用户与机器之间的协同适应过程。
- 个性化行为健康干预的政策优化
本文提出了一种名为 DecompPI 的新算法,用于优化基于行为干预的个性化健康干预计划,以实现卓越的长期健康成果;我们发现,该算法不仅具有一定的理论保证,而且在现实应用中也能够显著地减少干预成本。
- 零和马尔可夫博弈强化学习的一种新政策迭代算法
本文提出了一种对于零和马尔可夫游戏的学习策略 ——lookahead 策略,该策略使用简单的 naive policy iteration,在计划阶段实现高效的收敛,进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。
- 基于强化学习的路径规划:一种策略迭代方法
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
- 哪些经历对您的代理有影响?具有离职随机删除的政策迭代
本文提出了 PI+ToD 方法来有效地评估经验的影响,该方法利用 Turn-Over Dropout 达到效率,实验结果表明其在 MuJoCo 环境中表现优秀。
- 基于策略迭代和蒙特卡罗策略评估的强化学习收敛性
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
- 长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程
本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题,利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性,提出了一种策略迭代算法并 - 两次正则化的 MDPs 及其鲁棒性与正则化之间的等价性
该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
- 使用线性函数逼近实现高效的本地规划
研究使用线性函数逼近和模拟器的查询和计算高效的计划算法,在这种情况下,我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法,同时证明了我们的算法在特征,有效规划控制范围和目标次 - ICLRCASA: 冲突回避策略迭代,弥合政策改进和政策评估之间的差距
本文提出了一种模型无关的强化学习方法,通过对策略评估和策略改进之间的不一致性进行规范化,采取熵正则化策略改进,有效缓解两个 GPI 步骤之间的梯度冲突并避免落入次优解,该方法在 Arcade Learning Environment 上的实 - 约束马尔可夫决策过程的原始对偶方法
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度 - L1 - 鲁棒马尔可夫决策过程的部分策略迭代
本文探讨了在考虑转移概率不确定性时,如何高效地解决具有 s - 和 sa - 矩形模糊集定义的鲁棒 MDP 问题,并提出了一种新的策略迭代方案和快速计算鲁棒 Bellman 算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭 - 多智能体强化学习的最大互信息框架
本文提出了一个最大互信息(MMI)框架,用于多智能体强化学习,通过在行动之间的互信息上采取正则化累积回报,使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息,并应用变分界,我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。 - ICML多步贪心强化学习算法
本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势,并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现 - 探索增强的 POLITEX
该论文从强化学习、价值函数逼近和策略迭代等方面出发,提出了一种改进的 POLITEX 算法,采用单个充分探索策略替代之前对所有策略均需要探索环境的假设,以实现在存在探索难题的情况下控制代价的目标。
- 基于边际化重要性采样的强化学习最优离线评估
本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。
- ICML正则化马尔科夫决策过程理论
本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和 Legendre-Fenchel 变换,可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochas - NIPS在线和近似强化学习中的多步贪心策略
本文研究了使用多步贪婪算法的实际应用,发现在软策略更新时,只有更新步长足够大,才能保证单调策略改进,提出了组合在线和近似算法。