Jul, 2024

线性二次自适应控制的多任务表示学习的遗憾分析

TL;DR表示学习是一种强大的工具,通过强制所有代理在共享的学习特征上运行,使得在大量代理或领域上进行学习成为可能。然而,大多数保证表示学习的静态设置下成立,而与环境和目标不断变化的机器人或控制应用受益的协作操作在动态设置下进行。为了在动态设置中严格证明表示学习的优势,我们分析了线性二次控制中多任务表示学习的遗憾。在这个设置中存在独特的挑战,其中包括对近似表示引入的错误进行补偿和平衡以及无法依赖于单任务在线LQR的参数更新方案,而是必须设计一种新的方案来确保足够的改进。我们证明,在探索是“良性”的情况下,任何代理在T个时间步之后的遗憾的数量级为O(根号(T/H)),其中H是代理的数量。在具有“困难”探索的设置中,遗憾的数量级为O(根号(d_u d_theta)根号(T) + T^(3/4)/H^(1/5)),其中d_x是状态空间维度,d_u是输入维度,d_theta是特定任务的参数数量。在两种情况下,通过与极小值单任务遗憾O(根号(d_x d_u^2)根号(T))做比较,我们看到多个代理的好处。值得注意的是,在困难探索的情况下,通过跨任务共享表示,有效的特定任务参数数量通常较小,即d_theta < d_x d_u。最后,我们对我们预测的趋势进行了数值验证。