Sep, 2023

跟进也很重要:通过后续服务改进上下文强化学习

TL;DR设计了一个新算法 poLinUCB,用于处理具有后续服务上下文的情境强化学习问题,并在标准假设下实现了紧凑的遗憾值。