BriefGPT.xyz
Oct, 2023
对抗语境强化学习的核化方法
Adversarial Contextual Bandits Go Kernelized
HTML
PDF
Gergely Neu, Julia Olkhovskaya, Sattar Vakili
TL;DR
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Abstract
We study a generalization of the problem of
online learning
in
adversarial linear contextual bandits
by incorporating
loss functions
that
→