BriefGPT.xyz
Ask
alpha
关键词
complex planning
搜索结果 - 2
在强化学习中模仿受成本约束的行为
通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法,我们在考虑轨迹成本约束的情况下成功匹配了专家分布,并且在实证研究中证明了我们的元梯度方法具有最佳性能。
PDF
3 months ago
大型语言模型链式符号提示引发规划行为
本文提出了一种名为自然语言计划(NLP)的基准测试,由包含新颖任务的 Brick World、基于 NLVR 的操作和自然语言导航组成,着重研究 LLMs 在需要理解自然语言描述的虚拟空间环境并进行相应文本操作的复杂计划任务中的表现,发现常
→
PDF
a year ago
Prev
Next