- 多智能体强化学习中的行为多样性控制
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为 DiCo 的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
- 模拟政策影响:发展一种生成场景编写方法以评估监管的感知效果
AI 技术、政策、语言模型、负面影响和透明度立法是本文的关键词,本文利用大型语言模型评估政策的有效性以减轻负面影响,并通过案例研究证明了方法的有效性。
- 关于策略复用:一种表示和执行普通调用其他策略的表达性语言
该研究论文介绍了一种简单但强大的语言,用于表达和学习一般策略和问题分解(草图),并通过引入内部记忆状态、指示性特征和模块化等扩展使得这种语言更加灵活和可重用。
- Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件
我们研究了离散时间无限远平均回报的不安静赌博机问题,提出了一种新的策略类别,旨在将逐渐增大的一部分臂带向最优分布。我们证明了在 N 臂问题中,如果单臂松弛问题是单连通和非周期的,我们的策略是渐近最优的,具有 O (1/√N) 的最优性差距。 - 规模化即是所需:利用 JAX 加速强化学习训练自动驾驶强化策略
通过大规模强化学习应用于自动驾驶,分析了在实验规模逐渐扩大时由此产生的策略表现以及对策略表现的主要影响因素。
- 反向学习的目标导向策略
我们提出了一个多步骤过程,通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列,并通过模仿学习训练神经网络策略,肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问 - 推进 AI 审计以加强 AI 治理
人工智能服务和系统的审计问题及其促进良好人工智能治理的三项建议。
- 集群政策决策排名
通过统计协方差估计的黑盒方法,基于聚类和决策重要性排序,来分析强化学习任务中决策对奖励的贡献和重要性,并与之前的基于统计错误定位的排序方法进行了比较。
- 预训练视觉表示对稳健操控的成功因素
通过对 15 个预训练视觉模型的性能比较,发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和 50 次演示后预测了真实世界的性能。
- 深度模型预测优化
机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法,通过经验直接学习 MPC 优化算法的内环,针对控制问题的需求进 - 基于权重合并的船队策略学习及其在机器人工具使用中的应用
研究通过分布式学习实现机器人舰队在各种环境中获得多样化技能的方法,并介绍了 fleet-merge 方法用于合并参数化的递归神经网络策略,在 Meta-World 环境中有效地合并 50 个任务的策略,并在机器人工具使用基准测试中验证了 f - 生成强化学习策略解释的实证研究
本文介绍了一组用于政策解释的线性时态逻辑公式,重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示,特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后,提出了未来 - 相对稀疏性的推论
该研究通过实现相对稀疏的惩罚措施与加权信任区域策略优化的方法,分析医学应用中的不确定性来推导出可解释的与标准护理的差异较小的政策,重点考虑相对稀疏约束和单阶段 / 多阶段决策案例。
- 利用潜在状态表示扩展敏捷运动的多样性通过政策转换
本文提出了过渡网络(transition-net), 它是一种强大的过渡策略,扩展了机器人在现实世界中的运动多样性。
- 高效对抗引导的强化学习鲁棒性优化
本研究引入了群体对抗训练方法以增强强化学习代理的鲁棒性和优化性能,通过在最优解决方案的近似嵌套和更加普适性的选取方式进行了验证。
- 条件生成建模是否足以支持决策制定?
本文探讨了利用条件生成模型解决顺序决策问题的可能性,并提出了一种新的 return-conditional diffusion 模型的策略模型,使得模型训练不再需要动态规划算法,成功在一些标准测试上优于现有离线强化学习算法,证明条件生成建模 - 分布自适应元强化学习
本研究提出了一种元强化学习算法的框架,该框架可以适应于测试时间任务分布变化,以提高在分布转移下的领域中的适应能力和性能。
- 伦理元规则
本文针对行为规范方面,将 Meta rules 适用于可撤销逻辑中,提出了两个变体的 Defeasible Deontic Logic,并针对这两个变体提出了高效的算法,此方法可适用于法规和信息技术领域。
- 使用新的模块化架构评估强化学习中的政策、损失和规划组合
本文提出基于模型的强化学习范式中的新型模块化软件架构和一组可以方便地重复使用和组装以构建新的基于模型的强化学习智能体的构建块,包括规划算法,策略以及损失函数,实验证明了该架构是有用的,可用于研究新环境和技术。
- ICLR通过函数平滑证明强化学习的稳健策略
本文介绍了一种名为 CROP 的统一框架,该框架旨在提供针对行动和奖励水平的稳健性认证,通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法,包括 Atari 游戏和 Highway、CartPole