本文探讨了多任务强化学习中一种范例,即在一个固定的环境中进行一系列任务的学习,介绍了一种共享结构模型,在状态-动作值空间中联合学习优化价值函数,从而提高数据效率并获得更健壮、更具潜力的可传递表征。
Mar, 2016
研究多任务线性臂和线性价值函数近似下的表示学习,并提出了一个可共享表示的算法,可在多任务和时间步数下实现更小的遗憾。
Feb, 2021
本文提出首个针对低秩MDP的无模型表示学习算法,该算法采用了新的极小极大表示学习目标,并将其与探索策略相互交织,以无奖惩的方式覆盖状态空间,从而具有可证明的样本效率和适应复杂环境的能力。
本文针对线性语境劫掠问题,提出新的选择算法来适应多种线性表示方法,通过实验证明了我们算法的可行性和优越性。
Apr, 2021
研究在具有线性结构的有限时间马尔可夫决策过程(MDPs)中,状态-动作价值函数的表示在遗憾最小化中所扮演的角色,提出了普遍跨越最优特征(UNISOFT)的概念,证明当给定的表示满足UNISOFT条件时,提出的算法达到恒定的遗憾。
Oct, 2021
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列的合成和实际问题中表现出了很好的效果。
Nov, 2021
利用线性模型表示形式研究离线强化学习的统计学限制, 提出方差感知悲观值迭代算法, 重新权重贝尔曼残差以提高离线学习界限。
Mar, 2022
本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。
Jun, 2022
该研究考虑经典强化学习环境下的模型选择问题,提出了针对Multi Armed Bandits(MABs)和Markov Decision Processes(MDPs)的高效自适应模型选择算法,并证明了在假设类可分离的情况下,该算法的累积损失与正规则匹配。
Jul, 2022
通过使用函数编码器来表示奖励函数或转换函数,学习代理机器人在运行时如何与先前的任务相关联的方法,并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。
Jan, 2024