研究如何利用对称性以实现强化学习的样本效率,引入检测对称性的新方法,并证明其完整性;提供了将发现的对称性用于功能逼近的框架,并证明基于潜在效益的奖励塑形对于利用对称性特别有效;实验表明,利用对称性信息可以显著提高学习性能。
Jun, 2017
本文提出首个针对低秩MDP的无模型表示学习算法,该算法采用了新的极小极大表示学习目标,并将其与探索策略相互交织,以无奖惩的方式覆盖状态空间,从而具有可证明的样本效率和适应复杂环境的能力。
Feb, 2021
本文提出了一种基于部分观测马尔可夫决策过程的自适应网格细化方法,并采用深度强化学习训练策略网络,以求取高效精确的数值模拟结果。
Sep, 2022
该研究提出了一种名为学习数学抽象(LEMMA)算法,该算法可以通过引入抽象步骤来增强专家迭代,并利用层次化抽象的思想来帮助强化学习代理人解决数学问题,实验结果表明该算法可以有效提高已有代理人的解决问题能力和泛化能力。
Nov, 2022
本文提出了一种名为MusIK的强化学习算法, 通过多步反向运动学的表示学习结合系统性探索, 实现在最小统计前提下, 以理想的样本复杂度达到所需精度水平的计算效率, 可适用于通用函数近似。
Apr, 2023
本研究提出一种基于强化学习的方法,通过在化学反应路径上识别连接反应物和产物状态的重要配置,产生一系列集中于转化路径的配置集合,并将其在神经网络的偏微分方程求解器中有效地应用,从而得到一个受限背向科尔莫戈洛夫方程的近似解,该解编码了反应的机制信息并可用于评估反应速率。
May, 2023
提出了一种基于Fokker-Planck(FP)方程的新型物理意识逆强化学习算法FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况
Jun, 2023
通过在强化学习过程中加入物理信息,物理信息的应用已经在许多领域引起了革命性变化。本研究通过综述现有文献,提出了物理信息应用于强化学习的新颖分类法,分析了现有方法的不同特点和关键见解,并通过对核心学习架构和物理融合偏差的识别,进一步对这些方法进行了分类,为更好地理解和应用提供了指导。这一新兴领域有望通过增加强化学习算法的物理合理性、精度、数据效率和在实际场景中的适用性来提升强化学习算法的能力。
Sep, 2023
在计算物理、化学和生物学领域中,了解复杂系统中亚稳态之间的转变事件是重要的课题。本文将路径查找任务作为特定路径空间上的成本最小化问题进行了阐述,并利用深度确定性策略梯度算法(DDPG)中的演员-评论者方法来解决该问题。所提出的方法利用增强学习的开发和探索性质来高效采样转变事件并计算全局最优的转变路径。通过对包括扩展的Mueller系统和七粒子Lennard-Jones系统在内的三个基准系统的实证,我们展示了所提出方法的有效性。
Apr, 2024
该论文提出了一种新的框架:用于解决偏微分方程(PDE)的闭式符号框架(SymPDE),探索使用深度强化学习直接获得PDE的符号解。SymPDE减轻了Physics-Informed Neural Networks在拟合高频率和陡变函数中面临的挑战,并通过在时间独立和时空动力系统中解决Poisson方程和热方程的实验,证明了SymPDE可以为各种类型的PDE提供准确的闭式符号解。
May, 2024