泛化规划环境重构
本文考虑将环境视为一个系统级优化问题的决策变量,通过提出未排序和排序环境优化问题,分别考虑了代理人优先级与偏见。该文利用强化学习和原始对偶机制开发出了无模型解决方案,以处理约束条件,进一步阐释了环境与绩效之间的关系。数值结果证明了该方法的有效性和适应性。
May, 2023
利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计,与其他无监督环境设计方法相比,证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。
Jan, 2023
本研究提出了一种新的基于指针的 GP 解空间、评估和启发式函数,以及 BFGP 算法,为了实现 GP 的启发式搜索,避免了提前 grounding state 或 action 所带来的问题,能有效处理大型状态变量集合和大量数值域的情况。
Jan, 2023
通过元学习神经网络马尔可夫决策过程,我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力,并且发现上下文为基的赌博机能够实现良好的评估环境转移,从而加速下游应用。
Jun, 2024
本文旨在研究自适应系统中的规划领域及其分析方法,进而为未来自适应系统的规划器设计提供指导。通过对四个真实的自适应系统和 14 种不同环境下的规划结果进行研究,发现规划地形通常对规划器提供强烈的指导,但其崎岖不平和多样性可能是主要障碍。同时,本文讨论了由此对未来自适应系统规划器设计的潜在影响
Mar, 2022
研究神经网络的泛化能力,通过 3D Unity 模拟环境测试网络在未见过的情况下的表现并发现了训练、环境的细节影响泛化能力,建议在网络训练时按照孩子多感官、多模态的观察方式输入信息。
Oct, 2019
为了应对世界千变万化,智能代理的关键在于对环境的多样性进行响应。本研究提出了环境转化(可分为 R-transformations 和 T-transformations 两类)的概念和形式化理论框架,引入了新的描述环境和变形的语言 T-SAL,提供了一套涵盖 8 类情境变化的测试,以期为新颖和偶发情境提供明确的分类,为代理的鲁棒性提供公正的评估。
May, 2023
通过环境增强不可能学习到图中的不变表示,所以提出了一种基于可行假设的不变图学习框架 GALA,利用助手模型来识别不变子图从而成功实现 OOD 泛化。
Oct, 2023
利用深度神经网络学习适用于不同对象及数量的通用启发式方法,以解决当前计算复杂性问题所依赖的手工编码符号动作模型和启发式函数生成器效率不高的问题。实证评估表明,由此方法计算的通用启发函数可轻松应用于不同对象、数量显著大于训练数据的问题。
Jul, 2020