Feb, 2024

QGFN: 行动价值的可控贪婪度

TL;DR通过将 GFN 策略与行为价值估计 Q 相结合,提出了一种新的方法 QGFN,能够在多个任务中生成更多高回报样本而不损失多样性。