Oct, 2018

将后悔最小化和最佳臂识别融合,应用于 A/B 测试

TL;DR本文提出了一种在线学习算法,结合了最佳手臂识别和成本最小化两个目标,同时在保持遗憾最小化和最佳手臂识别方面具有保证,并将这些结果扩展到实践者面临的非独立同分布情况,旨在通过提供应用程序来权衡成本和决策时间。