- 时空分层强化学习用于可解释的病理图像超分辨率
提出了一种层次强化学习框架,用于解决病理图像超分辨率问题中的问题,通过分级恢复机制和时空管理器实现对病理图像的逐块恢复,并在肿瘤诊断方面取得显著提升。
- 双向可达层次强化学习与相互响应策略
通过互相共享信息和错误修正,我们提出了一种具有双向可达性的层次强化学习算法(BrHPO),该算法在长时间跨度任务中优于其他现有的层次强化学习方法,且具有更高的探索效率和鲁棒性。
- KEHRL: 使用层次强化学习学习知识增强语言表征
本文提出了一种通过层次强化学习来学习知识增强语言表示的方法,该方法集成了知识图谱中的关系三元组,并通过自监督学习将这些外部数据源整合到语言模型中,以避免注入不准确或不相关的知识,并有效地提升了模型在各种自然语言理解任务上的性能。
- 概率子目标表示的分层强化学习
高层策略给出低层策略达到的子目标,在这篇论文中,我们提出了一种基于高斯过程的概率子目标表示方法,通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息,从而适应不确定性。同时,我们还提出了一种新的学习目标,以实现概率 - 一种在高级和低级学习中可证明高效的基于期权的算法
在 Hierarchical Reinforcement Learning 的框架下,本研究通过使用不同的时间抽象层次交替使用相关算法,提出了一种用于解决有限时间间隔问题的元算法,从而初步理解了高层和低层策略同时学习的实际场景。
- KDDMacroHFT:增强记忆的上下文感知强化学习在高频交易中的应用
高频交易(HFT)是在短时间范围内执行算法交易的交易方式,近年来已经占据了大部分加密货币市场。除了传统的量化交易方法外,强化学习(RL)由于其处理高维金融数据和解决复杂顺序决策问题的能力,成为 HFT 的另一种吸引人的方法。本文提出了一种新 - DIPPER:直接优化偏好以加速基元级层次强化学习
DIPPER 是一种高效的分层方法,结合直接优化和强化学习,在从人类偏好数据中学习更高级策略和更低级策略的基础上,解决了从人类偏好数据学习复杂机器人任务的挑战。
- LGR2:语言引导的奖励重新标记加速分层强化学习
开发交互系统,利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2,这是一种新颖的层次强化学习框架,利用语言指令生成上层政策的稳定奖励函数,以解决非稳态问题,从而有效地利用语言指令解决机器人控制任务 - 深入探索层级世界模型在强化学习中的限制
层次模型强化学习 (HMBRL) 旨在将模型强化学习 (MBRL) 的更好的样本效率与层次化强化学习 (HRL) 的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的 HMBRL 框架,并进行了全面评估。通过构建模拟不 - ICML从词语到行动:揭示 LLM 驱动的自主系统的理论基础
从理论角度出发,研究大型语言模型在物理世界中解决决策问题的原因,通过层次化强化学习模型,证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习,并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体 - ACL选项的强化学习
目前的论文旨在探索强化学习领域,并在现有方法的基础上构建改进方法,以解决高维度和复杂环境中的学习问题。它通过分层的方式(称为层次强化学习)来分解学习任务,通过构建自主地学习层级结构的代理来提高效果。
- SMAUG: 基于滑动多维任务窗口的自适应实时子任务识别的 MARL 框架
提出了基于滑动多维任务窗口的自适应实时子任务识别的滑动多维任务窗口(SMAUG)多智能体强化学习框架,可以与任何基于 Q 学习的方法集成,并表现出性能优越性。
- MENTOR:利用人类反馈和动态距离约束指导分层强化学习
通过引入人类反馈和动态距离约束,我们提出了一个通用的分层强化学习框架(MENTOR),作为 “导师” 参与高层策略学习以寻找更好的子目标,并设计了对应于探索 - 利用分离的双重策略以稳定训练。通过动态调整可选子目标的空间,MENTOR 可以 - 战争游戏中智能代理的规模化
未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能(AI)的研发。更重要的是,利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键,提高未来战争决策的质量和加速速度。尽管深度强化学习(RL)在智能代理行为开发方面仍然 - 支持决策的数字战争游戏中用于扩展人工智能
本文介绍了在技术驱动的转型时代,加强对人工智能在决策支持军事模拟中的应用的投资的重要性,通过推进人工智能系统和人类判断的结合来提高全域意识、改善决策周期的速度和质量、提供新型行动建议以及更迅速地应对对手行动;同时提出了通过深度强化学习来开发 - 应急计算:一种基于分层强化学习的自适应协作推理方法
为了实现有效的应急响应,在缺乏基础设施的情况下,及时获取环境信息、无缝的命令数据传输和快速决策至关重要。本文提出了一个应急网络框架,包括应急计算、缓存、集成通信与感知以及智能增强等机制。该框架可确保对大型用户群体的快速访问,通过不稳定链路进 - ICLR协调空间和时间抽象以实现目标表征
通过引入空间和时间目标抽象的三层层次强化学习(HRL)算法提高目标表示性能,评估了该算法在复杂连续控制任务上学习到的空间和时间抽象的有效性以及遗憾边界的理论研究。
- AAAI人类移动的时空相互作用:一种具有超图表示的分层强化学习方法
为了解决人类移动中的空间和时间因素对决策过程的影响,本研究引入了 “空间 - 时间诱导层次强化学习”(STI-HRL) 框架,以捕捉人类移动决策中空间和时间因素的相互作用。通过两个层次的决策过程,STI-HRL 通过专用的个体代理来解开空间 - 城市环境中安全互动自主驾驶的想象增强分层强化学习方法
通过引入想象增强的分层强化学习算法,我们设计了一种新的导航算法,使得智能体能够在真实世界的导航任务中学习安全和交互的行为,提高了成功率并减少了平均步骤的数量。
- 电力网络拓扑控制的分层强化学习
使用层次强化学习方法控制电网拓扑结构,通过在不同层次应用强化学习算法,实现电网操作的长期目标且在困难任务上超越其他方法。