可扩展的语义非马尔科夫模拟代理用于强化学习

Oct, 2023

可扩展的语义非马尔科夫模拟代理用于强化学习

Scalable Semantic Non-Markovian Simulation Proxy for Reinforcement Learning

Kaustuv Mukherji, Devendra Parkar, Lahari Pokala, Dyuman Aditya, Paulo Shakarian...

TL;DR最近的强化学习（RL）研究在各种应用中显示出很大的潜力，然而，可伸缩性、可解释性和马尔可夫假设等问题限制了其在某些领域的适用性。本文提出了一种基于时间扩展的注释逻辑的语义代理模拟器，与两个高保真度模拟器相比，我们展示了高达三个数量级的加速，同时保持学习策略的质量，并展示了对非马尔可夫动态和即时动作的建模和利用能力，同时提供可解释的轨迹来描述代理动作的结果。

Abstract

Recent advances in reinforcement learning (RL) have shown much promise across a variety of applications. However, issues such as scalability, exp

reinforcement learning scalability explainability simulator non-markovian dynamics

发现论文，激发创造

带有并行可微模拟的加速策略学习

本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Apr, 2022

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

超级智能体：用于复杂环境的简洁、可扩展、高效和可证明的强化学习框架

提出了一种基于 HyperAgent 的强化学习框架，通过超模型、索引采样方案和增量更新机制，在资源约束下实现对复杂任务的简化、高效和可伸缩性，以及超越共轭的通用值函数近似下的计算高效的顺序后验近似和数据高效的动作选择。

Feb, 2024

亲和力基础强化学习代理的马尔科夫模型符号解释

为了改善现有强化学习算法的透明度不足，研究人员开发了一种策略正则化方法，使用离散化马尔可夫模型的全局代理来复现基于个人消费行为的投资策略，并提出了一种针对这些策略全局内在亲和性的解释方法，以实现对策略行为的推理，从而提高其可解释性。

Aug, 2022

可解释多智能体强化学习应用于时间查询

该研究提出了一种基于 PCTL 逻辑公式和概率模型检验的方法，用于为多智能体强化学习系统（MARL）生成策略级对比解释以回答时间用户查询，以帮助用户理解复杂环境中 MARL 代理的新兴行为，并能够解释为何用户查询不可行。实验表明，该方法有效提高了用户的性能与满意度。

May, 2023

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

学习模拟

本研究提出了一种基于强化学习的方法，用于自动调整非可微模拟器的参数，从而控制合成数据的分布以最大化模型的精度，相较于现有技术，该方法全面控制模拟器以最大化精度。

Oct, 2018

可扩展的多智体强化学习高性能模拟

本论文介绍了一种高性能代理基于模型的框架 ——Vogue，可以支持成千上万的互动代理的训练环境，此规模的高性能多智能体环境有望实现在复杂系统中建立灵活且健壮的策略。本研究展示了两个新开发的大规模多智能体训练环境的训练表现，并表明这些环境可以在几分钟甚至几小时的时间尺度上训练共享 RL 策略。

Jul, 2022

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

神经符号方法在可解释性和概率决策中的多智能体强化学习

多智能体强化学习（MARL）在优化多智能体共享资源中的系统性能方面具有潜力，但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战，我们提出了一种基于事件驱动的公式，利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架，概率逻辑神经网络（PLNN），将逻辑推理能力与概率图模型相结合，以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。

Feb, 2024