SIGIRApr, 2023
基于曝光的风险最小化的反事实学习排序的安全部署
Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization
Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke
TL;DR提出了一种新的风险感知的 CLTR 方法,使用了风险正则化来保证排名模型相对于安全模型的一致性,从而大大降低了模型部署的风险。经实验证明,该方法可以有效避免在数据量较少时出现性能下降的情况,并在收敛后保持高性能,为 CLTR 领域提供了更安全的模型部署方法。