- 行动条件自预测强化学习的统一框架
自预测学习是增强学习代理的关键挑战之一,本文通过分析一个考虑行动条件的自预测目标(BYOL-AC),利用 ODE 框架描述其收敛性质,并突出 BYOL-Pi 和 BYOL-AC 动力学之间的重要区别,展示了两个表示之间的差异和联系。在线性函 - 智能体会做电子绵羊的梦吗?通过生成学习提高强化学习的泛化能力
通过基于想象力的强化学习,使用梦境般的片段来训练策略,并通过生成扩增对非想象力、预测轨迹进行修改,实验表明与经典的想象力和脱机训练相比,我们的方法在处理收益稀疏环境时可以达到更高水平的泛化。
- 优化最小后悔度的无监督环境设计
无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。
- 学做中:带因果感知策略的在线因果强化学习框架
通过引入因果图模型来显式建模状态生成过程,并通过主动干预学习环境,优化衍生目标,提出了一种在探索阶段使用干预进行因果结构学习,然后在开发阶段使用学习到的因果结构进行策略指导的框架。实验结果表明,我们的方法在因果指导的策略学习和因果结构学习的 - 以代码为酬励:以 VLMs 强化学习为动力
利用预训练的视觉语言模型(VLMs)来支持强化学习代理的训练,提出了一种名为 VLM-CaR 的框架,通过代码生成从 VLMs 生成密集奖励函数,从而大大减轻了直接查询 VLM 的计算负担,证明了该方法在各种离散和连续环境中生成的密集奖励非 - 量子自然策略梯度
探讨了量子菲舍尔信息矩阵在增强参数化量子电路 (PQC) 强化学习代理性能方面的作用;通过对量子和经典菲舍尔信息矩阵之间的 Löwner 不等式进行详细分析,揭示了使用每种类型的信息矩阵的微妙差别和影响。结果表明,使用量子菲舍尔信息矩阵的 - 基于动态数据驱动的区块链系统数字孪生
本文研究了如何利用 DDDAS 反馈循环来支持 trilemma 的优化组件,利用强化学习代理和模拟组件来提高学习模型的质量,同时减少决策所需的计算开销。
- 机器人操作学习和仿真到真实世界转移中的动作空间作用
我们研究了机器人操作学习和从仿真到实际的转移中的行动空间选择。我们定义了评估性能的度量标准,并研究了不同行动空间的新兴特性。我们使用 13 种不同的控制空间,在模拟的抓取和推动任务中训练了超过 250 个强化学习代理。行动空间的选择涵盖了文 - 通过最大化证据推断行动:从观察中无标签模仿的世界模型
通过最大化证据的行动推理(AIME)和世界模型,在不需要进一步训练或与环境在线交互的情况下,通过观察和模仿他人的行为实现零 - shot 模型的人工智能代理。
- 机器中的目的:交通模拟器是否能为强化学习应用程序产生分布等效的结果?
交通模拟器对于智能交通系统的学习数据生成起着重要作用。本研究通过对两种常用交通应用强化学习(RL)代理训练的模拟器 CityFlow 和 SUMO 进行控制实验,发现它们在 RL 相关度量指标上存在分布等效性的问题,暗示交通模拟器对 RL - 信息内容探索
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索 - 强化学习中的多目标策略优化政策组合
通过利用相关的现有教师策略,我们使强化学习代理能够学习成功的行为策略,并在多目标策略优化设置中将教师策略引入作为目标之一,展示了教师策略能够加速学习的方式,尤其是在缺乏塑形奖励之情况下。
- ICML一种基于机器学习的奇点分解方法
本文提出一种新的方法,使用强化学习代理来寻找奇异性的最优解析,表明机器学习在符号计算算法性能方面具有改进的潜力。
- 学习防止欺诈
通过实验,我们证明了在 RL 环境下利润最大化的代理商可以遵守法律、规定和人类行为期望,其中引入了识别器作为规范指南,以塑造代理商的感知奖励并改变其选择的行动,从而避免了欺诈行为。
- ICLRMAESTRO: 多智能体强化学习的开放环境设计
本文提出了 Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) 算法,该算法在多智能体环境中使用 Unsupervised Environm - GANterfactual-RL: 通过视觉反事实解释理解强化学习智能体的策略
本论文提出了一种新颖而简单的方法,将问题形式化为域转移问题,使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释,证明该方法在分析不同代理机器人的学习策略时表现最佳。
- 利用学习的符号抽象启动高水平数学推理
该研究提出了一种名为学习数学抽象(LEMMA)算法,该算法可以通过引入抽象步骤来增强专家迭代,并利用层次化抽象的思想来帮助强化学习代理人解决数学问题,实验结果表明该算法可以有效提高已有代理人的解决问题能力和泛化能力。
- 使用逻辑状态抽象直接逼近 AIXI
提出一种将逻辑状态抽象与 AIXI 相结合的实用方法,通过基于高阶逻辑的状态表示和推理框架,扩展了 AIXI 在复杂历史依赖和结构环境中的近似模型类,其特征是通过适当的抽象状态序列的语境树加权实现精确的贝叶斯模型学习,可与不同的规划算法相结 - 四人共舞:多智能体自我对弈用于自动生成课程
本研究提出一种自动化生成目标课程的框架 ——Curriculum Self Play(CuSP),通过多人游戏的方式平衡合作和竞争的关系,解决了训练通用强化学习智能体所面临的困难,并成功地生成了适用于各种控制任务的目标课程。
- O-RAN 中的智能与学习,用于数据驱动的 NextG 蜂窝网络
本文探讨了 O-RAN 联盟提出的解聚的网络架构是否为 NextG 网络的关键要素,并在此框架下研究了数据驱动优化方法的潜力、挑战和局限性,以及实现自主和自优化网络愿景的深度强化学习智能体通过实时分析与控制的闭环集成的可行性。