Aug, 2023

快速高效的垒位策略优化:超越普拉基特–卢斯模型

TL;DR大规模机器学习系统的一个关键组成部分是返回选项列表;这篇论文在给定任意奖励函数的情况下,通过在决策函数上应用一种新的松弛技术,提出了一种简单而高效的学习算法来优化这些大规模决策系统,能够扩展到庞大的动作空间规模,相比常用的 Plackett-Luce 策略类,证明了该方法的有效性。