用于非线性系统控制导向识别的主动学习
论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。
Oct, 2018
本文介绍了Ready Policy One (RP1),将基于模型的强化学习视为一个主动学习问题,利用混合目标函数,在优化期间关键性的适应,以便在学习的不同阶段权衡奖励与探索,同时介绍了一个原则性的机制以停止样本收集。在多个连续控制任务中对方法进行了严格评估,并证明了与现有方法相比的显著增益。
Feb, 2020
通过提出一种主动学习的方法,该方法不断进行轨迹规划,轨迹跟踪和重新估计系统,并展示了该方法以参数速率估计非线性动态系统,类似于标准线性回归的统计速率。
Jun, 2020
利用物理学领域的最新进展,提出一种新的方法来发现强化学习中物理系统的控制非线性动态,并证明此方法能够在很少的轨迹采样数量(仅需要一次$≤30$时间步的轨迹)下发现此动态,从而为系统带来基于模型的强化学习的好处,并且不需要事先开发模型。该算法在四个控制问题上的实验表明,训练得到的基于控制系统真实动态的最优策略泛化能力强,且对于实际物理系统具有很好的性能表现。与现有的其他方法相比,该方法需要采样更少的真实物理系统轨迹。
Aug, 2022
本文提出了一种基于神经网络的深度主动学习框架,将其应用于非线性系统识别中,通过在不同输入空间区域中局部探索系统动力学,从而获得了覆盖更广泛输入空间的模拟数据集,并结合信息量测量和神经网络的预测方差等指标来实现最佳数据采集,相较于使用标准数据采集方法,本文所提出的方法在仿真数据的系统识别中表现更佳。
Feb, 2023
本论文介绍了一种基于最优试验设计的非线性动力学探索算法FLEX,其策略最大化下一步的信息并具有适应性,可与通用参数学习模型兼容且需要最少的资源,在不同环境下进行测试并证明其性能与计算成本低。
Apr, 2023
本研究针对非线性动态系统的控制问题,提出了一种通过最小化控制器损失和在任意系统中都能达到最佳实例速率的算法,该算法通过策略优化来实现优化实验设计,从而降低系统的参数不确定性。
Jun, 2023
通过利用少量真实世界数据来自动完善模拟模型并规划准确的控制策略,在多个具有挑战性的机器人操作任务中,我们展示了这种模式对识别关节、质量和其他物理参数的有效性,并且说明了只需少量真实世界数据即可进行有效的模拟到真实世界的转换。
Apr, 2024
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024