- 等变极限学习机快速高效预测偏微分方程
利用极限学习机(ELM)对偏微分方程(PDEs)进行预测,将状态空间分成多个窗口,通过单个模型分别进行预测,即使只有少量数据点,仍能达到很高的准确性,可以预测长时间范围内的 PDEs 流动。此外,我们展示了如何利用附加的对称性增强样本效率和 - 学习击败 ByteRL:可收集卡牌游戏智能体的可利用性
通过对 ByteRL 在《法典传说》和《炉石传说》中的表现进行初步分析,我们发现这种技术在这类游戏中的可利用性很高。
- 通过非收缩二值贝尔曼算子学习安全评论家
通过利用安全性是一种二进制属性的特点,我们研究了与确定性动力系统相关的二元安全评判的性质,并对其进行了全面的特征化,提出了一种通过设计利用安全数据的公理知识以避免虚假固定点的算法。
- 行为树控制器的扩展收敛性结果
研究行为树的收敛性,包括广义的既有结果和文献中未涵盖的循环切换情况。
- 在强化学习中创建多级技能层次结构
基于图形结构的交互模式,提出了一种基于分层图划分的自主代理技能分层方法,该技能分层具有多层抽象和在强化学习中的实用性。
- 通过三种启发式方法的混合来解决十五数码问题
本文利用 Bidirectional A * 算法及三种启发式算法(曼哈顿距离、线性位差和行走距离)解决了 Fifteen Puzzle 问题,并将这三种启发式算法混合运用,有效减少了算法生成状态数和扩展节点数,大大降低了空间复杂度,保证了 - ICLR使用过度参数化递归神经网络学习低维状态空间
本文研究了 Gradient Descent 在过参数化的线性循环神经网络上的外推性质,提供了理论证据表明算法会学习低维状态空间来建模长期记忆。实验验证了理论,表明线性和非线性循环神经网络可以通过学习低维状态空间来外推。
- 嵌套搜索与有限差异搜索
本文提出利用 Nested Search 算法最优启发式播放路径的思路,与 Limited Discrepancy Search 算法相比,其更为高效。
- 为数据高效强化学习学习具有时间一致性的表示
本研究提出了一种名为 KSL 的新的表示学习方法,通过自我监督辅助任务,强制执行表示的时间一致性,其中代理程序学习以动作为条件的状态空间表示的经常性预测。KSL 学习到的状态编码器生成低维表示,可以使 RL 任务的优化更具样本效率,并在 P - MICo: 基于采样状态相似性的改进型马尔可夫决策过程表示
本文提出了一种新的行为距离方法,用于深度强化学习智能体的学习表示,并通过理论和实证研究表明,该方法可以有效地解决现有状态相似性学习通常存在的计算成本高和缺乏基于样本的算法的问题,同时在 Arcade Learning Environment - ICML稀疏奖励下连续控制任务中的本地持久探索
本文提出了一种新的基于探索者轨迹的探索策略,使用局部自避步态生成方法,结合合适的状态平均距离,来为稀疏奖励的连续状态和行动空间提供短时记忆,实现高效的环境探索。
- 学习符号表示的主动探索
提出一种在线主动探索算法,能够高效地从数据中学习环境的抽象符号模型,并采用贝叶斯模型引导其未来的探索。通过两个计算机游戏领域的实验验证,证明该算法优于随机和贪婪的探索策略。
- 多任务强化学习中的共享表示学习
本文探讨了多任务强化学习中一种范例,即在一个固定的环境中进行一系列任务的学习,介绍了一种共享结构模型,在状态 - 动作值空间中联合学习优化价值函数,从而提高数据效率并获得更健壮、更具潜力的可传递表征。
- 用于计算马尔可夫决策过程近似最优解的模型简化技术
介绍了一种新方法,用于解决具有非常大状态空间的隐式(分解式)马尔可夫决策流程(MDPs)。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。
- 加性状态空间抽象的一般理论
该论文定义了一种适用于任何状态空间的加性抽象,并证明了基于加性抽象的启发式算法是一致且可接受的;基于这一定义,文章创建了针对多种测试平台的加性抽象,并通过实验展示了好的加性抽象能大大减少搜索时间。
- 通过流形的封装将通用传感器融合算法与声学状态表示相集成
提出一种基于 manifold(流形)的状态空间 S 的描述方式,用两个算子表示流形的结构,通用的估计算法可以通过替换 +/- 为 [+]/[-] 来处理流形上的量,此算法可应用于最小二乘估计和无迹卡尔曼滤波器。
- 混合蒙特卡罗算法的最优调节
研究了高维度混合蒙特卡洛算法中的哈密顿动力学、接受概率、状态空间和维度,表明为了得到接受概率为 O (1) 的最优性能,需要对步长进行适当缩放,并且该算法需要使用 O (d^(1/4)) 步来遍历状态空间。