BriefGPT.xyz
Ask
alpha
关键词
explore-exploit-guided language agent
搜索结果 - 1
语言智能能取代 PPO 吗?对 OpenAI Gym 的初步实证研究
语言代理是否能成为传统序列决策任务中 PPO 代理的替代品?本研究通过在 OpenAI Gym 中构建 TextGym 模拟器,对 PPO 代理和语言代理进行有效的比较,提出了基于统一强化学习框架和五个精确的领域知识控制场景水平的 RL-i
→
PDF
7 months ago
Prev
Next