implicit q-learning | BriefGPT

关键词implicit q-learning

搜索结果 - 4

AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么
PDFa month ago
面向多样化数据损坏的鲁棒离线强化学习
离线强化学习中，数据损坏对性能的影响是一个重要问题，本研究通过实证和理论分析发现，隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力，其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响，研究引入鲁棒统计学和 Hub
PDF8 months ago
IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法
使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型，提出了一个新的 actor-critic 模型，称为 Implicit Diffusion
PDFa year ago
基于隐式 Q 学习的离线强化学习
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基
PDF3 years ago