BriefGPT.xyz
Ask
alpha
关键词
sequential instructions
搜索结果 - 1
ACL
采用单步奖励观察的顺序指令到动作的现场映射
该研究提出了一种学习方法,用于将上下文相关的顺序指令映射到动作,并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型,从而实现单步奖励观测。同时,该算法考虑到交互的历史和世界状态的影响,通过实验表明,相较于逻辑表示方法,提出的算法在
→
PDF
6 years ago
Prev
Next