最佳两种选择:随机和对抗臂
本文研究了随机和对抗性组合多臂赌博问题。在随机情况下,我们提出了一种特定问题的遗憾下限,并讨论了其与决策空间维数的比例关系。我们提出了ESCB算法,该算法能有效地利用问题的结构,并对其遗憾进行了有限时间分析。ESCB具有比现有算法更好的性能保证,并在实践中显着优于这些算法。在对抗性情况下,我们提出了CombEXP算法,其遗憾比比现有最先进算法相同,但对于某些组合问题具有较低的计算复杂度。
Feb, 2015
本研究提出了一种算法,能够在对抗式和随机式赌徒问题中实现几乎最优的伪后悔界限,并表明任何在随机式赌徒问题中具有O(log n)伪后悔界限的算法都无法对自适应对抗式赌徒问题实现O(sqrt(n))的期望后悔。
May, 2016
提出了一种新颖的算法,采用乐观性和适应性技术,结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题,并在提高先前工作的同时,取得了多种新的数据依赖性遗憾界。
Jan, 2018
本文研究了在预算限制下的拟背包问题下应用 EXP3.BwK 算法解决对抗性赌徒问题,提出了在线学习方案并给出了相应的后悔界。研究表明,当动作成本与预算大小相当时,可实现的后悔界可能会极差,相比于成本受限的情况。
Oct, 2018
开发出新的半强化学习算法,不需要先验信息,可同时在随机环境和对抗环境下获得对数级和平方级的遗憾,并通过在合成数据上的实验证明了其性能的一致性和优越性。
Jan, 2019
研究了存在对抗性污染的随机多臂赌博机问题,在此问题上提出了一种新算法,其遗憾几乎是最优的,相对于以前的工作有显著的改进。我们的算法对对抗污染的程度是不可知的,并且可以承受相当大的污染,几乎不会降低性能。
Feb, 2019
提出一种基于元-UCB算法的简单方法,用于组合随机赌博算法,提高在劣势环境下的表现,实验结果表明算法可以在多种场景下取得与下界一致的效果,已验证线性赌博和模型选择问题的有效性。
Dec, 2020
本文将开发线性试探算法来适应不同的环境,并提出一种新的损失估计方法,该算法在随机环境中实现了几乎实时最优遗憾,还在带有额外遗憾的破损环境中工作,并装备有对抗性组件,同时拥有最小化遗憾的敌对环境优势。
Feb, 2021
本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果,将这种算法应用于上下文、图和表马尔科夫决策过程中。
Feb, 2023
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024