BriefGPT.xyz
Ask
alpha
关键词
environments
搜索结果 - 5
史诗式测试场景中的持续测试时适应
通过设计模拟测试时间适应过程,本研究揭示了数据集和算法因素对 TTA 方法逐渐退化的影响,并提出了一种名为 PeTTA 的方法,通过平衡适应和防止模型崩溃两个主要目标来调整 TTA 的适应策略,在各种基准测试中证明了 PeTTA 在面对分散
→
PDF
7 months ago
通过神经元细胞自动机实现任意可伸缩的环境生成器
通过使用 QD 算法优化神经元细胞自动机(NCA)环境生成器,我们展示 NCA 环境生成器在两个不同领域的多机器人系统中的可扩展性以及将单代理强化学习策略扩展到任意大的环境。
PDF
8 months ago
基于策略动态价值函数的快速适应
介绍了一种新的 Policy-Dynamics Value Functions 方法用于快速适应不同于之前训练环境的动态环境,方法利用强化学习技术,通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练,能够在少量交互中,通过学习后的价值
→
PDF
4 years ago
序列数据的不变因果预测
本文提出了一种方法来从时间序列数据中推断出因果关系,该方法能够识别因果预测变量并保持环境和异质性模式不变。
PDF
7 years ago
规划惊喜:动态环境下的最优贝叶斯探索
为了最大化其成功,一个 AGI 通常需要探索其最初未知的世界。我们在这里为广泛类别的环境得出了一种最优的探索方法。
PDF
13 years ago
Prev
Next