Feb, 2025

流量Q学习

TL;DR本研究提出了一种简单而高效的离线强化学习方法——流量Q学习(FQL),旨在解决传统强化学习中流政策建模复杂动作分布的困难。通过训练一个有表现力的一步政策而非直接优化迭代流政策,本方法避免了不稳定的递归反向传播,同时在离线和离线到在线的强化学习任务中表现出色,显示了较强的性能和广泛的适用性。