Jan, 2020

部分可观察线性二次控制中的遗憾最小化

TL;DR本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。