linear function approximation | BriefGPT

关键词linear function approximation

搜索结果 - 70

线性函数逼近下离线强化学习中固有贝尔曼误差的作用
在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的
PDF17 days ago
强化学习基于能见度低环境中逃生路径生成
通过使用激光雷达测绘系统，结合声纳和烟雾浓度数据，本文提出了一种实时确定消防人员搜索路径和平民撤离路径的系统，通过对独立点云数据的合并和简化，以及根据温湿度数据为每个节点标注危险分数，建立了一个环境张量，并通过线性函数逼近基于自然政策梯度强
PDFa month ago
线性函数逼近作为计算有效的经典强化学习挑战解决方法
基于神经网络的价值函数的近似是领先的基于策略的方法（如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO)）的核心。然而，在状态空间和
PDFa month ago
线性 MDPs 中具有累积赌臂反馈的近最优遗憾
该研究通过使用集成的 Q 函数和新的随机化技术构建基于值的乐观算法，并使用新的对冲方案构建政策优化算法，对具有聚合强化学习反馈的线性函数逼近进行了扩展研究。
PDF2 months ago
监督学习的 MRP 公式化：广义时间差异学习模型
该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在
PDF2 months ago
改进的对抗性线性混合马尔可夫决策过程算法：带有赌博反馈和未知状态转移
我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。
PDF4 months ago
TD 学习与线性函数逼近的简单有限时间分析
TD 学习在马尔可夫采样下，通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法，我们证明了在常数步长和标准选择下，TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明，并推测我们归纳证明技术将在更复杂的随机
PDF4 months ago
线性函数逼近的离策多步 TD 学习分析
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控
PDF4 months ago
ICLR有限时间分析对策略异构联合强化学习的应用
通过引入线性函数逼近方法，我们提出了 FedSARSA，一种新颖的联邦在线政策强化学习方案，以应对 FRL 算法的挑战，并提供全面的有限时间误差分析。我们证明了 FedSARSA 收敛于对所有代理都接近最优的政策，该接近程度与异质性水平成正
PDF5 months ago
带线性函数逼近的正则化 Q 学习
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。
PDF5 months ago
基于奖励相关性过滤的线性离线强化学习
这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。
PDF5 months ago
应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中
扩展 Borkar-Meyn 定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法，分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。
PDF6 months ago
在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性
我们介绍了一种分析连续状态 - 动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作
PDF6 months ago
安全的即时约束强化学习：激进探索的作用
该研究考察了具有线性函数逼近和在每一步都具有严格瞬时约束条件下的安全强化学习（safe RL）。本文提出了一种算法 LSVI-AE，针对成本函数是线性的情况，达到了 $\tilde {\cO}(\sqrt {d^3H^4K})$ 的遗憾值和
PDF6 months ago
TD (0) 函数逼近的集中界
我们得到了一种关于使用线性函数逼近进行 TD (0) 的集中界限。我们通过从底层马尔科夫链的单个样本路径中获取样本来处理在线 TD 学习，这使得我们的分析与离线 TD 学习或使用来自马尔科夫链的稳态分布的独立样本进行 TD 学习的情况显着不
PDF7 months ago
具有延迟反馈的后验抽样用于线性函数逼近的强化学习
使用后验采样算法处理强化学习中的延迟反馈问题，通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现，并在未知随机延迟的情况下具有最坏情况遗憾上界。
PDF8 months ago
多批次强化学习中的样本效率：对维度相关适应性的需求
探索强化学习中样本效率和适应性之间的关系，通过使用学习框架来研究问题的策略评估和最佳策略识别中，使用 n 个查询的样本有效算法所需的批次数 K 存在最低限制为 Ω(log log d)，并且仅有适应性并不能保证样本有效性。
PDF9 months ago
使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子
我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bell
PDF9 months ago
Q-learning 设计与乐观性的稳定性
该论文介绍了 Q-learning 在强化学习工具中的重要性，提供了随机逼近和 Q-learning 的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题，以及设计了一
PDFa year ago
使用函数逼近解决强化学习中重尾奖励问题：极小最优和实例相关遗憾界
本文提出了两个针对带有重尾奖励的强化学习问题的算法，分别是 extsc {Heavy-OFUL} 和 extsc {Heavy-LSVI-UCB}，并证明了它们在确定性和随机线性 bandits 的最劣情况下是最优的，同时通过一种新的鲁棒
PDFa year ago