Jul, 2024

稀疏线性函数逼近的误差界约束下的误设 $Q$-学习

TL;DR给定稀疏线性赌博机,即使在错误规定和稀疏度为常数的情况下,也可以使用多项式数量的样本获得O(ε)最优策略,这与没有稀疏度的错误规定线性赌博机需要指数数量的样本产生相同的保证形成鲜明对比。