control policy | BriefGPT - AI 论文速递

关键词control policy

搜索结果 - 13

高效深度多智能体强化学习的表示学习
通过辅助学习目标，MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率，并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。
PDFa month ago
从果蝇到机器人：具有动态停歇的小型四轴飞行器的倒立着陆
小型四旋翼飞行器通过模拟得到的控制策略以及领域随机化和系统识别技术实现了成功的倒置降落行为，模拟了在苍蝇中观察到的行为。
PDF4 months ago
马尔可夫决策过程中无界每步成本的模型近似
设计控制策略时，我们考虑在只有近似模型的情况下对无限时域折扣成本马尔可夫决策过程进行控制。对于在原始模型中使用近似模型的最优策略的性能如何，在原始模型中使用的近似模型的价值函数与原始模型的最优价值函数之间的差异的加权范数提供了上界的边界。通
PDF5 months ago
COMPOSER: 蛇形机器人的可扩展和稳健的模块化策略
我们提出了一种控制策略，通过将蛇形机器人视为模块化机器人，并将其控制形式化为合作多智能体强化学习问题，以有效降低蛇形机器人的高维度，并利用其冗余性，通过自注意机制增强智能体之间的合作行为，并引入高层次想象策略以提供额外奖励来指导低层控制策略
PDF9 months ago
基于强化学习的液压工程机械远程操作虚拟固定装置
本文提出了一种基于强化学习的方法来优化施工机械的远程操作性能，包括控制政策和虚拟装置在内，以提高建筑行业的远程操作过程的效率。
PDFa year ago
联邦式集合指导下的离线强化学习
本文介绍了一种使用联邦学习平台上的分布式计算资源，基于集成学习方法开发的、名为 FEDORA 的算法，以解决联邦离线强化学习问题。我们展示了 FEDORA 在各种复杂的连续控制环境和真实世界数据集中明显优于其他方法，包括离线 RL 在合并数
PDFa year ago
从逐步优化策略梯度的角度重新审视 LQR 控制
本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了 RHPG 用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了 RHPG 在具有流线型分
PDFa year ago
结合模仿与强化学习的减少基线遗憾度框架
本文提出了一种联合模仿和强化学习框架，旨在通过最小化基线策略性能的遗憾来在线优化控制策略的同时，逐渐从基线转移到强化学习代理，实现优于基线策略性能的效果。
PDF2 years ago
使用深度强化学习进行多资产闭环水库管理
本研究提出一种基于深度强化学习的多资产封闭环水库管理框架，通过训练一个适用于所有考虑的资产的单个全局控制策略，有效地解决了资产逐一训练的问题，并在 2D 和 3D 水驱油注的实验中得出了可行的实用策略。
PDF2 years ago
基于音乐的在线游戏关卡生成
本文基于经验驱动的强化学习和可控强化学习，构建了一个名为 OPARL 的通用框架，能够实现基于音乐的在线水平生成。通过一种新颖的基于局部搜索和 k 最近邻的控制策略，OPARL 能够考虑在线收集的游戏数据来控制关卡生成器，生成难度级别与音乐
PDF2 years ago
使用知识图谱进行深度强化学习的迁移学习
该研究探讨了使用知识图谱作为域知识传输的表示来训练文本冒险游戏中的强化学习智能体的方法，测试其在多个游戏上的迁移学习能力，结果表明这种方法能够更快地学习高质量的控制策略。
PDF5 years ago
稀疏表示在强化学习控制中的应用
本文研究确定在增强学习中控制的稀疏表示。通过对比标准神经网络表示和具有稀疏性质的神经网络表示，在经典控制域中递增地学习控制策略的表现，证明了稀疏表示更加有效，因为其提供了局部性，避免了灾难性的干扰，特别是保持了稳定的值来引导学习。同时，称之
PDF6 years ago
深度强化学习联合学习构造和控制智能体
运用深度强化学习，开发能够同时优化机器人设计和控制策略的方法，在机器人行走的场景下展示出在性能和效率方面均优于基准算法的优越性。
PDF7 years ago