BriefGPT.xyz
Jan, 2020
部分可观察线性二次控制中的遗憾最小化
Regret Minimization in Partially Observable Linear Quadratic Control
HTML
PDF
Sahin Lale, Kamyar Azizzadenesheli, Babak Hassibi, Anima Anandkumar
TL;DR
本文提出一种名为ExpCommit的算法,用于在未知模型动态的情况下最小化部分可观测线性二次控制系统中的后悔,并提供一种新颖的方式来分解后悔,并为部分可观测线性二次控制系统提供端到端的次线性后悔上界,并对ExpCommit提供稳定性保证及后悔上界。
Abstract
We study the problem of
regret minimization
in partially observable linear quadratic control systems when the
model dynamics
are unknown a priori. We propose ExpCommit, an explore-then-commit algorithm that learn
→