Oct, 2021

(几乎) 免费的去中心化学习代理的激励探索

TL;DR本文探讨了在多臂赌博机中利用多个具有长期战略的代理人进行奖励探索,并提出了一种简单但有效的激励策略,结果表明,当涉及足够多的学习代理人时,主体的探索过程几乎是免费的。