Sep, 2023

平等的长期收益率:将静态公平概念应用于顺序决策

TL;DR通过引入一种名为 ELBERT-PO 的偏差缓解方法,我们在三个连续决策环境上的实验证明 ELBERT-PO 方法显著减少了偏差并保持了高效用性。