Jun, 2024

朝向领域自适应的神经上下文赌博

TL;DR通过从源域收集反馈,我们介绍了第一个用于情境强盗的通用领域适应方法。我们的方法在跨领域适应时维持亚线性遗憾界限,并在真实世界数据集上表现优于现有的情境强盗算法。