May, 2023

使用双Expectile-Quantile 回归的分布强化学习

TL;DR本篇论文提出了一种将expectiles和quantiles相结合的方法,用于表示回报的分布,该方法充分利用了它们在估计分布方面的独特性质,相较于先前的基于quantile或expectile的算法在MuJoCo continuous control benchmark上表现更好。