Mar, 2024

一种广义 Borda 准则下最优和自适应的非平稳对决多臂老虎机算法

TL;DR对比辩论问题中实现严重非稳态度的底线非希望恶化情况下,解决 Borda 动态后悔上界问题的技术,揭示了 Condorcet 与 Borda 后悔目标在对比辩论问题中学习到严重非稳态度的根本差异。