Jan, 2024

多学习者环境中的战略使用

TL;DR现实世界的系统中,用户在一组服务中进行选择,通过在线学习算法,这些服务可以自我优化并最大化一些回报,而用户可以策略性地选择服务以追求他们自己的回报函数,我们分析了一个策略性用户在多个可用的服务中进行选择的情境,并研究了损失函数在这种情境下的收敛行为。