- 强化学习中的无模型主动探索
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探 - 无模型鲁棒强化学习及样本复杂度分析
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结 - 关于价值函数的有限表达能力及其与统计 (非) 效率的联系
通过一系列的案例研究,本文深入探讨了模型识别和无模型方法之间的权衡,重点关注了在政策评估的核心问题上,价值函数空间内无法准确表示转移动态信息的情况,揭示了价值函数的表达能力限制是低效的驱动因素。
- 元学习线性二次调节器:一种基于策略梯度的模型无关 LQR 的 MAML 方法
在多任务、异构和无模型的情况下,我们研究了学习线性二次调节器(LQR)的问题。我们表征了基于策略梯度的无模型元学习方法(MAML)(Finn et al.,2017)在不同任务异质性设置下的稳定性和个性化保证。我们展示了 MAML-LQR - 双重不均匀环境下的离线评估
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能 - 使用随机特征的自监督强化学习转移
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
- 突发模型变化下的强化学习
提出了一种基于模型无关算法的强化学习问题解决方案,该算法通过与环境互动学习最优策略,并利用最快的变化检测算法来检测模型变化,从而获得长期折现奖励。
- 用于处理各种机器人手臂任务的离策略深度强化学习算法
本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法,在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练,并分析了这三种算法在控制环境中的效率和速度。
- ViNL: 视觉导航和克服障碍物
本文介绍了一种基于 ViNL 的视觉导航和运动方案,其中包括一个视觉导航策略和一个视觉运动策略,它们都是完全 “无模型” 的,通过端到端训练的神经网络来实现机器人在未知室内环境中的智能导航和避开障碍物的智能视觉运动。
- 强化学习中样本高效函数逼近的通用框架
本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based - ECCV基于神经社会物理学的人类轨迹预测
本研究提出了一种新的轨迹预测方法,该方法结合了基于规则、几何或优化的模型和基于深度学习的方法,使用了一个新的神经微分方程模型(Neural Social Physics),能够较好地模拟行人行为,并在六个数据集上将性能提高了 5.56% - - 深度强化学习教科书
本书提供了深度强化学习领域的全面概述,主要涵盖了建立领域基础,算法和应用,同时介绍了一些先进主题,如深度多智能体强化学习、深层次强化学习和深元学习;本书适用于人工智能的研究者、从业者和研究生,假定读者具有本科水平的计算机科学和人工智能理解, - 带模型不确定性的在线强化学习
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一 - ICLRCASA: 冲突回避策略迭代,弥合政策改进和政策评估之间的差距
本文提出了一种模型无关的强化学习方法,通过对策略评估和策略改进之间的不一致性进行规范化,采取熵正则化策略改进,有效缓解两个 GPI 步骤之间的梯度冲突并避免落入次优解,该方法在 Arcade Learning Environment 上的实 - 低秩 MDP 中无模型表示学习与探索
本文提出首个针对低秩 MDP 的无模型表示学习算法,该算法采用了新的极小极大表示学习目标,并将其与探索策略相互交织,以无奖惩的方式覆盖状态空间,从而具有可证明的样本效率和适应复杂环境的能力。
- ICML反向受限强化学习
研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力 - FOCAL:通过距离度量学习和行为规范实现高效完全离线的元强化学习
本研究旨在通过实施行为规范化、采用确定性上下文编码器及负幂距离度量等新方法,构建一种全新的、终端到终端的离线元元强化学习算法,以解决元强化学习中 “脱离分布状态动作引起的自举误差” 和 “训练策略学习的效率和健壮性” 等两大挑战,并将该算法 - EfficientDeRain: 学习像素级扩张滤波以实现高效单张图像去雨
本文为了填补现有方法在处理不同场景下的雨滴降噪时缺乏普适性和效率的困境,提出了一种基于像素扩张滤波的实时、无需对雨滴模型作出特定假设的降噪方法 EfficientDeRain,并提出了有效的数据增强方法 RainMix 以增加对真实世界图像 - ICML随机镜像下降法高效求解 MDPs
通过基于原始 - 对偶随机镜像下降的统一框架,提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程,同时提出了解决双线性鞍点问题与约束 MDPs 的方法。
- 广义值函数逼近的强化学习:通过受限逃避维数可证明高效方法
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。