Jan, 2020

部分可观察线性二次控制中的遗憾最小化

TL;DR本文提出一种名为 ExpCommit 的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对 ExpCommit 提供稳定性保证及后悔上界。