BriefGPT.xyz
Ask
alpha
关键词
optimal regret
搜索结果 - 3
ICLR
激励诚实通信对于联邦赌博机的应用
通过提出名为 Truth-FedBan 的激励兼容(即真实性)通信协议,本文首次展示了在联邦赌博学习中同时实现激励兼容性和近乎最优的遗憾的可能性。大量的数值研究进一步验证了我们提出的解决方案的有效性。
PDF
5 months ago
具有有限适应性和学习分布最优设计的线性赌臂机
本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究,发现在批次学习模型中只需要 O(log log T)批次进行学习,但在策略转换限制下需 O(dlogdlogT)次策略转换才能达到最优遗憾。
PDF
4 years ago
关于 Hedge 算法在随机制度下的最优性
研究了在线随机环境下的 Hedge 算法行为,证明了降低学习率的任何时候版本,能够同时适应较容易的随机问题和顶峰问题,并与其他变体算法的表现有质的差异,最终讨论了该算法的局限性和 Stochastic 情况下双重遗憾边界带来的改进。
PDF
6 years ago
Prev
Next