- ICML位置:强化学习研究中的基准测试受限
通过对 rigorous experiment designs 的计算成本的探究,本研究提倡使用额外的实验范式来克服 benchmarking 的局限性。
- 强化学习中的时间离散化特异性
我们考虑了连续时间和离散时间回报的定义之间的关系,并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境,或者粒度本身是随机的情况下,具有实际意义。
- 基于表格和深度学习的 Whittle 指数计算
使用 QWI 和 QWINN 两种强化学习算法,分别基于表格和深度学习结构,学习总折扣标准下的 Whittle 指数。关键特征是使用两个时间尺度,一个更快的时间尺度用于更新状态 - 动作 Q 值,一个相对较慢的时间尺度用于更新 Whittl - Dominion: 人工智能研究的新领域
近年来,机器学习方法在围棋、雅达利和扑克变体等游戏中取得了超越人类的表现。本研究探讨了桌面游戏 Dominion 的特性,并讨论了它作为下一代强化学习算法基准的适用性。同时,我们介绍了 Dominion Online 数据集,包含由经验丰富 - 使用联邦学习训练自主 HVAC 系统
本文通过聚合在不同气候区域的多个数据中心上训练的本地策略来学习一个全局的强化学习控制器,以最大程度地减少能源消耗并同时最大化热舒适度,实验证明这种联邦策略相比于单独训练的策略具有更快的学习速度和更强的泛化能力。
- 平滑 Q-learning 算法的统一 ODE 分析
通过异步强化学习和平滑版本的简化框架,提出了更加广泛和统一的 Q-learning 及其平滑变体的收敛性分析方法。
- HumanoidBench: 模拟人型机器人全身运动与操作基准测试
为了加快人形机器人算法研究的进展,我们提出了一个基于高维度的模拟机器人学习基准,名为 HumanoidBench,该基准以配备熟练双手和各种具有挑战性的全身操作和运动任务的人形机器人为特色。我们的研究发现,当配备稳健的低级策略(如行走或伸手 - 可证明的对数概率策略梯度
利用 log 密度梯度方法可以准确估计政策梯度,并且这种方法能够改善强化学习算法的样本复杂性,通过减少样本数提供了一种有希望的新方向。
- 增强端到端多任务对话系统:内在动机强化学习算法的研究,以改善训练和适应性
通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索,本研究旨在改善对话系统的政策,继而有效提高性能指标并拓展领域范围。
- 多任务深度强化学习中的知识共享
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学 - 基于接触能的回顾经验优先级
本文介绍了一种基于接触能量的优先选择机制,用于解决强化学习中多目标机器人操作任务中稀疏奖励收集成功经验低效的问题,并在各种机器人操作任务中对该方法进行了评估。
- Controlgym:用于基准化强化学习算法的大规模安全关键控制环境
我们介绍了 controlgym,这是一个包含 36 个安全关键的工业控制设置和 10 个基于无穷维偏微分方程的控制问题的库。我们将 controlgym 集成在 OpenAI Gym/Gymnasium (Gym) 框架中,允许直接应用标 - Where2Start: 利用初始状态进行鲁棒性和样本高效的强化学习
我们提出了 Where2Start 算法,通过选择初始状态,在该状态附近产生更多的不稳定性,从而改善强化学习中的样本效率。实验证明,Where2Start 算法可以提高样本效率达到 8 倍,并且可以与大多数最先进的算法结合,显著提高其稳健性 - 面向 AAM 应急管理的标准化强化学习框架
通过整合 AAM-Gym 仿真框架中的紧急情况管理 MDP,本研究将紧急情况管理问题作为 Markov 决策过程,并将其快速原型化为强化学习算法,从而为未来算法开发提供一个社区基准。
- 通过少量专家示范融合奖励函数,实现忠实准确的知识导向对话生成
开发值得信赖的对话式信息搜索系统依赖于能够基于相关知识文本生成忠实准确响应的对话模型。我们通过引入一种新的奖励函数利用强化学习算法来克服数据偏见和冗余信息的两个主要挑战,并在两个对话式信息搜索数据集上的实证实验中展示了我们的方法可以与其他强 - 挑选和通过” 作为基于第一原理记忆、泛化性和可解释性评估的三重分类
通过研究 “Sushi Go Party!” 一类闭合纸牌游戏,建立了对模型无关强化学习算法和学习记忆能力的基本标准,同时量化了强化学习算法在不同纸牌组合上训练的普适性,并通过拟合决策规则对模型策略进行了解释和与人类选手的排名偏好进行了比较 - 学习具有未知图内核的正则化图均场博弈
我们设计和分析了一种用于图形平均场博弈算法(GMFGs)的强化学习算法。相较于以往需要准确的图形值的方法,我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡(NE)。我们的贡献有三个方面。首先,我们提出了用于 GMFG 的邻近策略优 - 基于深度强化学习的智能交通信号控制与 CO2 排放优化
该研究报告介绍了一种名为 EcoLight 的奖励塑造方案,用于强化学习算法中,既可以减少二氧化碳排放,又可以在诸如旅行时间之类的指标上获得具有竞争力的结果。该研究比较了采用表格型 Q 学习、DQN、SARSA 和 A2C 算法的性能,使用 - 廉价对话算法
我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为,显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略,从而在代理之间的利益冲突程度给出的前提下,按照 Nash 均衡预测发生最 - 自主车辆交叉路口导航的深度强化学习
研究该论文中,通过使用基于 Twin Delayed Deep Deterministic Policy Gradient (TD3) 强化学习算法的低成本单一智能体方法,提出了有效解决自动驾驶车辆在复杂 T 字路口中的导航问题,并证明了该