- 从庞加莱回归到不完全信息博弈的收敛:通过正则化寻找均衡
研究了在顺序不完美信息游戏中遵循规则的领导者动态,推广了 Poincaré 循环结果,并探讨了通过调整奖励来建立收敛保证的技术,进而构建了精确收敛到 Nash 平衡的算法,为零和二人不完美信息游戏的无模型算法提供了新思路。
- 保持距离:通过自平衡的成形奖励解决稀疏奖励任务
该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法,使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务,同时不需要额外的奖励工程或领域专业知识。
- 无模型强化学习中的无限时域平均奖赏马尔可夫决策过程
本文提出两种基于无模型的强化学习算法,用于学习无限时间持续的平均回报 MDP 问题,第一种算法在弱相互通信的 MDPs 中,将问题简化为折扣回报问题,在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法; - ICML多步贪心强化学习算法
本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势,并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现 - AAAI关于强化学习中的困难探索:Pommerman 的案例研究
本研究研究了如何在具有稀疏、延迟和欺骗性回报的域中进行最佳探索,通过分析 Pommerman 的难度,提出了一种基于模型的自动推理模块,可以用于更安全的探索,通过实验证明了该模块可以显著提高学习效果。
- 城市自主驾驶的无模型深度强化学习
本文提出了一个在复杂城市自主驾驶场景下使用无模型深度强化学习的框架,并在高清晰度驾驶模拟器中进行了验证。结果表明,与基线相比,我们的方法可以很好地解决任务,且表现显著优异。
- 自监督学习图像嵌入以进行连续控制
本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。
- AAAI基于模型探索的策略优化
介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法,将模型自由和模型依赖估计方法的差距视作探索价值的度量,并将 Monte-Carlo - AAAI抽象表征下的联合强化学习
本文提出一种新的方法,通过共享基于低维学习的环境编码来明确地连接无模型和有模型的强化学习方法,该方法能够捕捉到总结性抽象,同时具有模块化的特点,因此具有良好的泛化能力和计算效率,并在较小的潜在状态空间中进行计划。此外,此方法还能恢复足够低维 - 无线网络中动态功率分配的多智能体深度强化学习
本文提出了一种分布式执行的动态功率分配方案,基于无模型深度强化学习技术,通过收集 CSI 和服务质量(QoS)信息,每个发射机适应自己的发射功率,旨在最大化加权和速效用函数,可特化为实现最大总速率或比例公平调度。本方案特别适用于系统模型不精 - 一日学车
本研究首次将深度强化学习应用于自动驾驶,通过模型自主探索学习一个仅需单目图像为输入的车道跟踪策略,并采用单一、易于获取的奖励措施:在无安全司机控制下行驶的距离。我们使用连续的、无模型的深度强化学习算法,并在车上执行所有探索和优化过程,为自动 - NIPS利用无模型 Q 集成和基于模型方法相结合进行知情探索
本论文提出将模型自由的 Q-Ensembles 和基于模型的方法相结合,以期望增强其探索能力。结果表明,当基于轨迹记忆的模型与 Q-Ensembles 方法相结合时,可以得到比仅使用 Q-Ensembles 方法更优越的性能。
- 先斩后奏:桥接基于模型和基于模型的无模型强化学习,为规划先进的视觉语言导航
本文提出了一种新颖的,提前计划的混合增强学习模型,将模型无关的和模型基于的强化学习相结合,以解决实际的视觉语言导航任务,并且实验结果表明,该方法在真实数据集上表现最佳,还具有更好的可扩展性。
- 可组合的深度强化学习在机器人操作中的应用
本研究探讨软 Q-learning 方法在真实世界机器人操作中的应用,证明软 Q-learning 方法比先前的模型自由深度强化学习方法具有更高的采样效率,并且可以通过将学习到的策略组合创建新的策略,从而在真实世界机器人操作中提供高效的工具 - 原始 - 对偶 π 学习:对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间
本文提出了一种基于 Primal-Dual π Learning 的方法,利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略,并给出了复杂度上界,并且这种方法还能应用于有限状态、有限动作空间以及随机 - MBMF: 基于模型的先验知识用于无模型强化学习
本文提出了一种新的方法,旨在将模型自由和模型相关两种范式结合起来,通过学习概率动力学模型和利用它作为模型自由优化的先验概率来实现数据有效和成本节约,并证明这种方法优于单纯的模型相关和模型自由方法,以及从模型相关模式切换到模型自由模式的方法。
- NIPS价值预测网络
本文提出了一种新型的深度强化学习架构 Value Prediction Network,将无模型和有模型强化学习方法集成到一个神经网络中,它通过学习一个动态模型,预测未来价值而非未来观测,实验结果表明,VPN 在需要细致计划但难以建立准确观 - ICML轨迹中心增强学习的模型基与模型无更新相结合
本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略,通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合,并与指导策略搜索相结合,训练深度神经网络等任意参数策略,以提高实时机器人应用的模型效