Jun, 2022

汤普森采样高效学习控制扩散过程

TL;DR通过 Thompson 采样算法学习漂移矩阵严重不确定的扩散过程的最优控制策略,并在实际应用中验证了其优势,这是相关研究的首次尝试。