决策和控制的深度生成模型
我们引入了一种深度强化学习 (DRL) 方法来解决包括库存管理、动态定价和推荐等管理问题。这种 DRL 方法有潜力基于特定的变压器神经网络结构构建一个大型管理模型,从而为各种管理任务提供一种人工通用智能范式。我们的方法能够统一框架下解决问题,考虑不同任务之间的相互关系。实验结果验证了我们基于 DRL 的框架在复杂和动态的商业环境中的有效性。这项工作为 DRL 在管理问题中的应用开辟了新的道路,突显了其改革传统商业管理的潜力。
Mar, 2024
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。
Jun, 2022
本文探讨了利用条件生成模型解决顺序决策问题的可能性,并提出了一种新的 return-conditional diffusion 模型的策略模型,使得模型训练不再需要动态规划算法,成功在一些标准测试上优于现有离线强化学习算法,证明条件生成建模是一种强大的决策制定工具。
Nov, 2022
本研究提出决策栈(Decision Stacks),一种将目标条件策略代理分解为 3 个生成模块的生成框架,其中模块通过独立的生成模型模拟观察、奖励和动作的时间演变,并可并行学习。实验结果证明了 Decision Stacks 在离线策略优化方面的效果,优于现有方法,并实现了灵活的生成决策制定。
Jun, 2023
深度生成人工智能是机器学习社区中长期关注的重要话题之一,能够影响文本生成和计算机视觉等多个应用领域。最大似然估计是训练生成模型的主要范式,通过减少模型分布和目标分布之间的差异来捕捉和近似目标数据分布。然而,该目标无法满足用户对生成模型的全部要求。增强学习作为一种竞争性选择,能够通过创建新目标以利用新信号来注入新的训练信号,具有灵活性和强大的能力,能够从多个角度遵循人类的归纳偏好,如对抗学习、手工设计规则和学习奖励模型等。因此,增强学习已成为一个热门的研究领域,在模型设计和应用方面拓展了生成人工智能的界限。虽然最近在不同应用领域存在一些调查报告,但本综述旨在提供一个高级别的综述,涵盖了广泛的应用领域,包括严格的分类和对各种模型和应用的充分覆盖。值得一提的是,本综述还调查了快速发展的大规模语言模型领域。通过展示可能解决当前模型限制并扩展生成人工智能前沿的潜在方向,我们总结了本综述。
Aug, 2023
该研究论文针对使用深度学习技术学习机器人控制策略,对深度强化学习和模仿学习两种主要学习控制范式进行了综述,包括了应对从模拟环境到现实场景中真实性差距的挑战,并总结了机器人仿真平台用于开展深度强化学习研究,同时介绍了三种主要的模仿学习范式及其相应的机器人应用,最终讨论了开放性挑战和研究前沿。
Dec, 2016
现有的最优控制方法在处理真实系统中常遇到的复杂性(包括维度、过程误差、模型偏差和数据异质性)时遇到困难。最优控制方法通常寻求简化模型以适应,但何时适用于近似的、简化的模型的最优解胜过适用于更准确的模型的近似解尚未得到充分回答。深度强化学习(DRL)中的算法和计算进展为我们解决这些问题提供了可能性。DRL 方法迄今主要应用于游戏或机器人机械学中,在确切已知规则下运行。我们在没有了解或企图推断进程模型的情况下,展示了使用深度神经网络进行 DRL 算法的能力,成功近似求解了一个非线性三变量渔业模型的解(“策略函数” 或控制规则)。我们发现强化学习代理通过简化问题来获得可解释的控制规则。我们展示了 DRL 所获得的策略在渔业管理中既更具利润性,也更具可持续性,胜过了任何固定死亡率政策 —— 渔业管理中的标准政策家族。
Aug, 2023
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021