- 无训练数据的多变量时间序列的反事实解释
本研究提出了 CFWoT,一种基于强化学习的反事实解释方法,用于生成反事实解释。CFWoT 适用于没有训练数据集的静态和多变量时间序列数据集,并可以处理连续和离散特征。CFWoT 生成的反事实解释所需进行的改变更少且更小,使其更具可操作性。
- 一个家庭群集的强化学习能源协调在真实世界中的实施
通过观测室内数据,我们展示了一种实施简便且易于扩展的强化学习方法,该方法在一个真实世界的场景中验证了基于层次控制系统的协调策略的可行性,并展示了满意的电能追踪效果。
- 基于归纳元路径学习的模式复杂异构信息网络
SchemaText proposes a method to address the computational complexity associated with meta-path enumeration in schema-com - Galactic:针对每秒 100k 步的重排列的端到端强化学习扩展
Galactic 是一个大规模的机器人移动操作仿真和强化学习框架,在家庭环境中通过仿真实现机器人物品重排,获得了显著的性能提升并解锁了前所未有的大规模实验,此外实现了一个具有通用性的神经网络以达到 85% 的抢单重拍成功率。
- 如何使用强化学习促进未来电力市场设计?第二部分:方法和应用
使用基于强化学习(RL)的仿真,本文发展了一种范式化理论和详细方法,用于联合电力市场设计。案例研究说明了如何使用某些市场运营绩效指标选择最佳市场设计选项,并讨论了不同市场设计选项对市场参与者竞标策略偏好的影响。
- 如何利用强化学习促进未来电力市场设计?第一部分:范式理论
为了实现电力系统的去碳化和环境友好型,本文提出了重新设计电力市场作为一种宏观方法,以适应可再生发电的高渗透率,其中应用了强化学习技术,解决了能源现货市场、辅助服务市场和金融市场之间协调缺乏的问题,提出了多种市场运营绩效指标进行验证。
- 强化学习中的受限制探索与最优性保护
在强化学习问题中引入概念的受限探索与最优保持,在满足某些约束时保持学习的最优性,通过引入监督器控制行为,建立了一个反馈控制结构来建模无约束学习过程的动态,为知道确定性环境的强化学习问题建立了必要条件和充分条件。
- 混合动作空间交通信号控制的强化学习
本文介绍了一种基于混合近端策略优化的 RL 算法,称为 TBO,其实现了阶段和持续时间的同步优化。 通过实验表明,与现有基线相比,TBO 平均可以将队列长度和延迟分别减少 13.78%和 14.08%,同时计算出移交权利的 Gini 系数表 - Nocturne: 一种可扩展的行车基准,让多智能体学习更接近真实世界
介绍了 Nocturne,一个新的 2D 驾驶模拟器,用于研究部分可观测下的多智能体协作。该模拟器旨在提供真实世界中的推理和心理理论研究,而无需进行计算机视觉和图像特征提取的计算开销。使用开源的轨迹和地图数据,构建了一个加载和重播任意轨迹和 - ACL针对低资源的刻板印象检测的强化引导多任务学习框架
通过构建新的 evaluation set,同时利用邻近任务进行多任务模型训练和强化学习,该论文成功提高了基于 Stereotype Detection 的任务性能。
- ICML为什么?解释支持学习关系和因果结构
本文研究了如何使用语言描述和解释方式来改善深度强化学习智能体的学习和推理能力,特别是对于复杂环境下的关联结构和因果结构的推断,结果表明该方法可以有效地解决数据分布不清晰和因果混淆等问题。
- 关于马尔可夫奖励的表现力
本论文研究奖励作为捕捉代理应执行任务的方式的表达能力,并针对可期望的三种新的任务抽象概念(接受的行为集、行为的偏序关系或轨迹的偏序关系),提供了一组构造马尔可夫奖励函数的多项式时间算法,使代理能够优化每种类型的任务,并正确判断不存在这种奖励 - 解决贝尔曼方程的核损失
本文提出了一种新的损失函数,可以使用标准的梯度下降优化,避免了以往算法中需要双样本的问题,并可以与深度学习等函数类相结合,且在多个基准测试中表现可靠和有效。
- 模型驱动的强化学习中规划器过拟合问题的缓解
探索一种中间立场,通过对其考虑的计划进行一种正则化来避免过度拟合,该论文提出了三种不同的方法,可在强化学习环境下明显缓解计划器过度拟合。
- 随机方差缩减策略梯度
本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法,即 SVRPG,旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题,并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下,我们提供了 SVR - NIPS基于显著性的序列图像关注与多集合预测
本文提出了一种基于视觉注意力模型的分层视觉架构,包括显著性图和注意机制,用于多标签图像分类。模型支持多集预测,通过强化学习进行训练,支持任意标签排列和一对多预测。实验结果表明,该模型可以实现高精度和高召回率的多标签图像分类和物体定位。
- 多任务强化学习的样本复杂度
介绍了一种新的多任务算法用于强化学习任务,该算法显着减少了探索的每个任务的样本复杂性,并保证不会出现负转移,与对应的单任务算法相比具有可比性。