- 委托代理强化学习
使用契约来激励自私代理实现委派任务的潜力。通过以 MDP 模型化委派任务并研究随机博弈过程,我们提出了一种基于学习的算法来优化委托人的契约,并在多代理环境中扩展了该方法,以解决序列社会困境并最小干预代理奖励。
- MapTune: 强化学习指导的 ASIC 技术映射中的进阶库优化
使用强化学习方法的 MapTune 框架通过设计特定选择的方式来改善电路映射过程,减少搜索空间并提高映射质量,实验证明其在广泛的电路设计、技术库和映射器中都能实现更高的映射准确性。
- ACL基于路由器机制的领域鲁棒轻量级奖励模型探索
利用小语言模型和路由机制,我们探索了三种方法:1)利用专家模块化内部路由器和专家形成单一的奖励模型;2)使用外部路由器从多个领域特定模型中选择适当的奖励模型;3)通过适配器将奖励模型和路由适配器加载到单个小语言模型,以减小参数大小。实验证实 - 连续时间线性二次强化学习中的一种演员 - 评论家算法的次线性遗憾
研究了连续时间线性二次(LQ)控制问题中一类扩散的增强学习(RL),其中状态过程的波动性依赖于状态和控制变量;无需模型参数或估计,应用一种无模型方法,设计了一个演员 - 评论家算法直接学习最优策略参数;提出了一种新颖的探索策略,并对所提算法 - 基于强化学习的自行车模型路径追踪与稳定化
使用强化学习方法对虚拟自行车模型进行路径跟踪和横向稳定性,通过输出转向角度以稳定自行车模型,并通过使用不同路径和测量方法对部署代理的性能进行评估。
- 体育馆:强化学习环境的标准接口
Gymnasium 是一个开源库,提供了一个强化学习环境的 API,其主要作用是为基准环境和训练算法之间的广义互操作性提供了一个中心抽象。Gymnasium 配备了各种内置环境和实用工具,以简化研究人员的工作,并受到大多数训练库的支持。本文 - SoNIC:基于自适应合规性推断和受限强化学习的安全社交导航
通过将自适应符合推断(ACI)与约束强化学习(CRL)相结合,我们提出了首个算法 SoNIC,以增强强化学习(RL)策略的安全性,从而为社会导航学习安全策略并避免与行人碰撞的问题。我们的方法通过在 RL 观测中引入 ACI 产生的非符合度分 - 增强学习交易对:动态缩放方法
通过将强化学习与配对交易相结合,我们开发了一种新的基于强化学习的配对交易技术,证明了在加密货币等波动性市场中,强化学习可以显著优于手动和传统的配对交易技术。
- 基于大规模人类数据的自主驾驶赛车仿真基准测试
本文提出了基于 Assetto Corsa 模拟器的赛车模拟平台,用于测试、验证和评估自主驾驶算法,包括强化学习和经典模型预测控制,在逼真和具有挑战性的情境中。此外,我们还评估了离线强化学习设置中的算法,提供了开源的代码、工作示例、数据集和 - 策略镜像下降的功能加速
我们将功能加速应用于政策镜反射(PMD)通用算法系列,该系列涵盖了强化学习(RL)中的多种新颖和基础方法。通过利用对偶性,我们提出了一种基于动量的 PMD 更新。通过采取功能路线,我们的方法不依赖于政策参数化,并适用于大规模优化,涵盖了以策 - ODGR:在线动态目标识别
该研究论文提出了一种新颖的强化学习方法,用于学习另一个代理人的策略,实现对代理人目标的实时识别。该论文介绍了在线动态目标识别(ODGR)问题的概念,并通过在导航领域使用迁移学习展示了解决 ODGR 的可行性。
- 由模仿到精细 -- 用于精准视觉组装的残差强化学习
该论文探讨了使用强化学习微调以改进精密操作任务中基于行为克隆训练的策略,通过学习校正动作,使用稀疏奖励和标准的策略梯度方法在冻结的基础策略之上训练残差策略,结合师生蒸馏和视觉领域随机化,从 RGB 图像中直接学习实际世界中的机器人组装策略。
- 基于强化学习的适应性不更正场地 DRAM 错误抵制
本文提出了一种自适应方法来触发未纠正错误的缓解,该方法基于预测方法,考虑了未纠正错误的可能性和当前潜在成本。通过使用经典机器学习度量及成本效益分析评估了该方法,在 MareNostrum 超级计算机的两年生产日志中,与无缓解相比,我们的方法 - 基于人工智能的决策支持系统用于精准和数码健康
数字技术支持下的精准健康是一项研究领域,它扩展了精准医学的范式,推动了日常医疗。人工智能的突破性出现与此愿景相呼应,正在改变我们对临床对象和普通大众进行诊断、治疗和监控的方式。机器学习支持的人工智能工具在各个医疗领域表现出了显著的改进。特别 - 基于概念的可解释强化学习在人类标签受限或无标签条件下的应用
利用人类可理解的概念集成到神经网络中的概念瓶颈模型在强化学习中提供了可解释性的替代方案;为了克服此前工作中对人工注释的假设,在人工标注的数据集上学习概念和有效地训练强化学习算法的新型训练方案 LICORICE 是本文的主要贡献之一;最后,通 - 区块链网络中的可持续广播与强化学习
提出了一种基于强化学习的高效方法,改进了区块链网络中的区块广播方案,结果表明该方案能够处理网络动态并取得比默认方案更好的结果。
- MODRL-TA:电子商务搜索中的交通分配的多目标深度强化学习框架
提出了一种多目标深度强化学习框架,用于解决电子商务平台中流量分配的问题,通过学习排名和强化学习的方法,在考虑多个目标和实际数据环境的情况下,实现了长期价值的最大化。
- 强化学习与视觉里程计相遇
通过将 Visual Odometry(视觉里程计)作为一种序列决策任务来进行重构,并应用强化学习(Reinforcement Learning)来实现动态适应 VO 过程,该方法引入了一个神经网络,作为 VO 流程中的一个代理,在实时条件 - ICML一个在循环神经网络中进行规划行为的 Sokoban 游戏
通过对神经网络的训练和研究发现,为了预测其在新情境中的推广能力,理解神经网络的推理过程是至关重要的。
- 增强硬件容错性的机器中的强化学习策略梯度算法
通过在两个 OpenAI Gym 模拟环境下评估 Proximal Policy Optimization (PPO) 和 Soft Actor-Critic (SAC) 两种强化学习算法的性能和适应性,本研究发现强化学习算法能够提升机器的