programmatic policies | BriefGPT

关键词programmatic policies

搜索结果 - 4

在语义空间中搜索程序化策略
在本文中，我们提出了一种使用语义空间进行程序策略综合的替代方法，通过学习一组具有不同代理行为的程序库来定义语义空间，并通过在当前候选程序中替换程序库中的程序来近似语义空间，实验证明在语义空间中搜索比在基于语法的空间中搜索更加高效。
PDF2 months ago
AAAI使用大型语言模型评估编程策略的可解释性
使用大语言模型来评估编程策略的可解释性，并验证其在解决编程问题和实时策略游戏中的应用，结果表明该度量标准在评估编程策略的可解释性方面是可靠且廉价的工具。
PDF8 months ago
使用演员 - 评论算法和 ReLU 网络合成程序策略
在这篇论文中，我们展示了使用 actor-critic 算法将从 actor-critic 算法学习到的策略转化为以程序形式编码的策略的连接，以此避免了需要使用特定于 PIRL 的算法的问题。实证结果表明，这种转化方法能够学习出简短而有效的
PDFa year ago
通过迭代局部搜索进行编程策略提取
通过结合模仿投影、数据集聚合和局部搜索启发式，我们提出了一种直接提取预训练神经策略的程序化策略的简单方法，该方法在编程问题和摆动问题上实现了可解释性和高效性。
PDF2 years ago