- 两人盲拧游戏中无算法串通的托马斯・桑普林
当两个玩家在具有未知收益矩阵的重复博弈中相互无意识地使用多臂赌博算法选择行动时,我们展示了当玩家使用汤普森抽样时,游戏动态收敛到纳什均衡的情况,尽管在这种情况下算法勾结不会发生,尽管玩家没有刻意采取竞争策略。为了证明收敛结果,我们发现随机逼 - 基于状态分离的 SARSA:一种具有恢复奖励的实用顺序决策算法
在此研究中,我们提出了一种适用于概率回弹猎人问题的强化学习算法,称为状态分离 SARSA 算法 (SS-SARSA),它通过将回合视为状态来实现高效学习,并对奖励结构做出最小的假设,同时具有较低的计算复杂性。
- 通过核化多臂赌博机进行分布式优化
该研究论文提出了一种基于分布式优化和多臂赌博算法 (Multi-armed bandit) 的全分散算法 (Multi-agent IGP-UCB),以最小化代理间的遗憾值,并在保护隐私的同时提供了改进的性能。
- 语言模型预训练的高效在线数据混合
研究论文通过开发一种高效的在线数据混合算法(ODM),结合了数据选择和数据混合的元素,优化了训练过程中的数据混合比例,提高了大型语言模型的性能。
- 发现离散对称性的统一框架
我们开发了一个统一的框架,通过线性和张量值函数的组合表达在各种子群中对称不变的函数,利用多臂老虎机算法和梯度下降优化线性和张量值函数,从而学习出对应的对称性。通过图像数字求和和多项式回归任务的实验,证明了我们方法的有效性。
- 网上自适应算法中特征选择的重要性
通过模拟实验,我们发现教育科技中的自适应个性化可能是一把双刃剑,实时个性化在某些情况下改善学生体验,但较慢的个性化和潜在的歧视结果意味着更个性化的模型并不总是有益的。
- 分布式参数估计中资源约束下的协作
提出一种基于 Fisher 信息最大化原理和多臂赌博算法的传感器 / 代理人数据收集和协作策略设计,旨在解决参数估计问题中资源限制和不同传感器 / 代理人观测结果之间的相关性问题。
- 基于赌博算法的网络拓扑与舆论动态联合学习
提出一种基于多臂赌博算法的学习算法来解决连通性结构和混合意见动态之间的联合学习问题,目的为了找到每个 agent 的更新规则并学习底层的网络同时通过减少网络误差改善预测表现,此算法在数值实验上表现出比稀疏线性回归和高斯过程回归等方法更好的效 - 在线自适应交通实验的批处理贝叶斯采样算法实用性评估
本文通过对自适应交通实验的多臂赌博算法、贝叶斯批次赌博算法和流量分配等进行研究,提出了四种新的贝叶斯采样算法(NB-TS,WB-TS,NB-TTTS 和 WB-TTTS)并进行了综合评估。评估结果显示,WB-TTTS 是一个有前途的选择,如 - GBOSE: 广义臂匪正交半参数估计
本文提出了一种基于非参数奖励模型的多臂赌博算法,具有最先进的上限复杂度,相对于已有的半参数算法,提供了明确的行动选择分布,并要求更少的计算,这个算法在涉及到两个以上臂的情况下,其上限遗憾的复杂度最优,并提供模拟结果验证其方法卓越性。
- 无偏级联赌博机算法:降低在线学习排序推荐中的曝光偏差
本文针对基于多臂赌博机算法的在线推荐模型中的信息暴露偏差问题进行研究,分析了这些算法处理信息暴露偏差问题和提供公正的推荐结果的能力,并提出了一个折扣因子并将其纳入这些算法中,以控制每个时间步骤中商品的曝光率。在两个数据集上进行实验,并展示了 - 竞争环境下探索的危险:一种计算建模方法
通过对探索和竞争之间的相互作用进行实证研究,我们发现:在数字经济中,数据作为进入在线市场的一个障碍,可能促使更好的算法的产生,获得更高的消费者福利;在有竞争的市场中,探索可能会损害系统的声誉,进而降低市场份额,而第一个进入市场的公司则可能促 - IJCAIUCBoost: 对随机赌博机的复杂性和最优性进行增强的提升方法
这篇论文提出了一种名为 UCBoost 的方法,用于解决多臂赌博算法在序贯决策问题中低复杂度且最优问题,该方法提供了一种可以在计算复杂度和最优性之间互相交换的方式。
- 竞争中的学习:对抗式赌博机
研究系统在进行学习和获取新信息的探索过程中如何平衡用户的需求和竞争,通过考虑多臂赌博算法之间的竞争和用户的不同反应模型,研究竞争是否促进更好的算法的采用,这与经济学中的 “竞争与创新” 关系密切相关。