Aug, 2024

综合多元信息以协调行动:异质代理的随机强盗算法

TL;DR本研究针对传统随机多代理多臂强盗问题中的差异化奖励分配缺乏有效方法的空白,提出了一种新的UCB风格算法Min-Width,以整合来自异质代理的信息并协调代理与臂的分配。研究发现,当代理的敏感性差异较大时,模型对代理异质性的考虑能显著提升性能,而信息共享的增加并不始终提升表现。