BriefGPT.xyz
Feb, 2025
流量Q学习
Flow Q-Learning
HTML
PDF
Seohong Park, Qiyang Li, Sergey Levine
TL;DR
本研究提出了一种简单而高效的离线强化学习方法——流量Q学习(FQL),旨在解决传统强化学习中流政策建模复杂动作分布的困难。通过训练一个有表现力的一步政策而非直接优化迭代流政策,本方法避免了不稳定的递归反向传播,同时在离线和离线到在线的强化学习任务中表现出色,显示了较强的性能和广泛的适用性。
Abstract
We present
Flow Q-Learning
(FQL), a simple and performant offline
Reinforcement Learning
(RL) method that leverages an expressive flow-matching policy to model arbitrarily complex action distributions in data. Tr
→