BriefGPT.xyz
Ask
alpha
关键词
value iteration network
搜索结果 - 6
将价值迭代网络扩展到 5000 层,用于极长期规划
DT-VIN 通过增加动态转移内核和引入自适应高速公路损失来提高价值迭代网络在强化学习中规划的表达能力和解决长期大规模规划任务的能力。
PDF
24 days ago
卷积神经网络在奖励塑造中的应用
本文提出了一种用 CNN 进行的潜在基于价值的奖励塑造机制 VIN-RS,该方法基于 Hidden Markov Model 的信息传递机制对 CNN 进行训练,并通过自我学习的卷积过滤器估计环境的转移矩阵,实现了有效的潜在函数的构建。通过
→
PDF
2 years ago
利用隐式微分扩展和稳定可微规划
本文提出了一种不依赖于 forward iteration 层区分前向计算和反向传递并解决 Value Iteration Network 和其变体中大规模问题的不同 iable planning 方法,该方法通过 Bellman fixe
→
PDF
2 years ago
ACL
通过引入模型稀疏性实现基于场景的语言学习中的组成概括
本文研究了如何应用感知模型稀疏性,以实现语言理解问题中的组合泛化和更好的样本利用率。通过设计一个包含目标识别模块的智能体,鼓励指令中的词汇与环境属性的稀疏相关性相结合,输出作为价值迭代网络计划器的输入,从而保持高性能。
PDF
2 years ago
广义价值迭代网络:超越格子世界
该论文介绍了一个称为 GVIN 的神经网络规划模块,利用图卷积算子模拟价值迭代算法,并提出了三种不同可微分的卷积核,其中基于嵌入的卷积核表现最佳,进而提出了改进型 Q 学习,用于网络训练的稳定化。实验结果表明,GVIN 在二维迷宫、不规则图
→
PDF
7 years ago
价值迭代网络
文章介绍了价值迭代网络(VIN),它是一个内嵌有 “规划模块” 的全可微神经网络,可以学习规划和预测基于规划的推理,如强化学习策略,其中的关键是一种新颖的可微近似值迭代算法,可表示为卷积神经网络,并使用标准反向传播进行端到端训练。我们在离散
→
PDF
8 years ago
Prev
Next