BriefGPT.xyz
大模型
Ask
alpha
关键词
implicit q-learning
搜索结果 - 4
AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么
→
PDF
a month ago
面向多样化数据损坏的鲁棒离线强化学习
离线强化学习中,数据损坏对性能的影响是一个重要问题,本研究通过实证和理论分析发现,隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力,其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响,研究引入鲁棒统计学和 Hub
→
PDF
8 months ago
IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法
使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型,提出了一个新的 actor-critic 模型,称为 Implicit Diffusion
→
PDF
a year ago
基于隐式 Q 学习的离线强化学习
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基
→
PDF
3 years ago
Prev
Next