模仿学习中的值聚合收敛性

Jan, 2018

Convergence of Value Aggregation for Imitation Learning

Ching-An Cheng, Byron Boots

TL;DR本文中，研究了价值聚合在解决模仿学习问题上的一般框架，通过迭代地在在线学习环境中交替进行策略优化和评估来生成策略序列。我们揭示了价值聚合总是产生收敛策略序列且性能不断提高的常见信念是错误的，提供了一个关键稳定条件以确保收敛性，并提供了最后一个策略性能的紧密非渐近界。

Abstract

value aggregation is a general framework for solving imitation learning problems. Based on the idea of data aggregation, it generates a policy se

value aggregation imitation learning policy sequence convergence performance

发现论文，激发创造

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

链式价值函数用于离策略学习

该论文提出了一种新的家族离线预测算法，通过构建一系列价值函数来实现稳定的模型迭代，算法收敛且可以有效的处理离线强化学习过程中的问题。

Jan, 2022

强化学习的编排价值映射

本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法，具有收敛性和泛化性，并可以用于处理高度变化的奖励尺度和集成学习等任务。

Mar, 2022

深度聚合：序列预测的可微分模仿学习

使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型，在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小，其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能

Mar, 2017

政策评估网络

本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法，通过估计给定一组状态下多种策略的价值，实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明，该方法的理论和实际效果均优于传统方法。

Feb, 2020

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018

自适应近似策略迭代

本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Feb, 2020

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

无穷时间尺度下强化学习价值函数的统计推断

本文提出了一种基于序列 / 筛选法的行动 - 值状态函数（Q 函数）来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估（SAVE）方法，以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验，结果表明强化学习算法有助于改善患者的健康状况。

Jan, 2020

联邦学习聚合：具有保证的新的鲁棒算法

该研究对联邦学习框架下聚合策略进行了全面的数学收敛分析，并通过与 FedAvg 进行分类任务的比较来评估其性能，得出了新的聚合算法，该算法可以通过区分客户端贡献的价值来修改其模型架构。

May, 2022