- 主动表示学习的开放问题
在这项工作中,我们引入了主动表示学习的概念,这是一种在部分可观察环境中交织探索和表示学习的新类型问题。我们借鉴了主动同时定位与地图构建(主动 SLAM)的思想,并将其转化为科学发现中的问题,如自适应显微镜。我们探讨了一种从某种可行的表示中获 - 噪声与不确定环境中的深度强化学习奖励机制
用于嘈杂和不确定环境下的深度强化学习中,通过对任务结构进行利用,我们提出了一套 RL 算法,成功地提高了在词汇嘈杂的环境下的性能,从而为在部分可观察环境中利用 Reward Machines 提供了一个通用的框架。
- 通过世界模型进行延迟观察的强化学习
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟 - ComTraQ-MPC: 有限主动定位更新的元训练 DQN-MPC 集成用于轨迹跟踪
ComTraQ-MPC 是一个结合了深度 Q 网络和模型预测控制的创新框架,用于优化部分可观测环境下有限主动本地化更新的轨迹跟踪问题。通过 DQN 的自适应主动本地化调度和 MPC 的状态信息利用,它能够显著提升操作效率和准确性,为复杂部分 - 经证明高效的部分可观察风险敏感强化学习与事后观测
该论文通过引入后见观察机制,研究了部分可观测环境下风险敏感强化学习的悔恨分析,提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时,能够实现多项式悔恨。该研究对强化学习 - 关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响
我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。
- 未来预测能成为部分可观察环境中良好历史表达的有力证据
在部分可观察环境中,学习历史表征是强化学习的核心挑战之一。本文通过未来预测的方式探究了历史表征学习的有效性,并证明了强化学习的性能与未来观察的预测准确性密切相关。同时,该方法可以阻止高方差嘈杂信号对表征学习的影响,显著改善整体端到端方法。通 - 语义 HELM: 一种可解释的强化学习记忆
这篇研究通过使用 CLIP 将视觉输入与语言标记联系起来,利用预训练的语言模型作为代理的记忆来提供一个连贯且可解释的过去表征,实现了最先进的性能和在需要记忆过去才能解决任务的环境中表现出优势和劣势,具有可解释性。
- 在部分可观察环境中,结合元政策和蒙特卡罗规划实现可扩展的基于类型的推理
提出了一种基于类型推理的部分可观测元蒙特卡罗规划方法,在多智能体系统中实现对其他智能体的有效交互和长期规划,相比现有方法计算更快且能够得到更优解。
- 在不可预测和部分可观测的环境中,进行多机器人协调的匪类子模型最大化
研究部分可观测的不可预测环境下的多智能体协调问题,提出了一种基于子模块最大化和有界跟踪遗憾的赌博反馈协调算法,用于解决多机器人协调问题,并通过模拟多目标追踪实验对算法的效果进行验证。
- ICML使用奇异值分解的深度强化学习表示与探索
该研究论文介绍了一个基于奇异值分解的方法,用于在领域中保留基础转换结构的表示,从而提供伪计数的估计,在多任务中展示了结果,并解决了部分可观测的环境下的难以探索的任务。
- Atari 游戏中部分可观测无监督表示学习
本文提出了一种用于部分可观测状态的无监督状态表示学习方案,相比受监督学习的 ST-DIM 方法在 Atari 游戏中的表现提高了,平均准确率得分达到了约 66%,平均 F1 得分为约 64%。
- 利用人工智能改善在大型部分可观测环境中的人类规划
该研究开发了第一个元推理算法来发现资源合理策略,将其应用于人类在部分可观察环境下的规划中,并通过智能教师教授学习所得的策略,以提高人类在复杂、部分可观察的序列决策问题中的规划能力。
- 通过人类规正化搜索和学习,实现人类和人工智能的协同
利用针对人类的数据规范化搜索方法及行为克隆技术,开发了一种三步算法来在不完全可观测的完全合作环境中与真人协作,该算法在 Hanabi 基准测试中表现出强大的协调性。
- 由学习的环境模型指导的部分可观测性下的强化学习
本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL - 利用图神经网络处理稀疏奖励
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且 - 纳入未来信息的策略梯度
这篇论文提出了一种名为 PGIF 的方法,通过信息瓶颈机制,允许强化学习中的代理观察未来的真实结果,从而获得有关未来轨迹动态的更加丰富的信息,以在不完全可观察的环境中实现更高奖励的目标。
- AAAI部分可观察马尔可夫决策过程的基于点的模型检验方法
提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策 - ICLR可变循环模型求解部分可观测控制任务
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
- AAAI部分可观测环境中的离线策略评估
该论文研究了部分可观察环境下的强化学习离线策略评估的问题,针对部分可观察的马尔可夫决策过程(POMDPs)建立了离线策略评估的模型,并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。