sequential instructions | BriefGPT

关键词sequential instructions

搜索结果 - 1

ACL采用单步奖励观察的顺序指令到动作的现场映射
该研究提出了一种学习方法，用于将上下文相关的顺序指令映射到动作，并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型，从而实现单步奖励观测。同时，该算法考虑到交互的历史和世界状态的影响，通过实验表明，相较于逻辑表示方法，提出的算法在
PDF6 years ago