BriefGPT.xyz
大模型
Ask
alpha
关键词
embodied environments
搜索结果 - 1
ICLR
真知源于实践:通过强化学习使 LLMs 与具身环境对齐
通过将大型语言模型(LLMs)作为决策制定代理部署到 RL 中,我们提出了 TWOSOME,这是一个新颖的在线框架,无需准备数据集或环境先验知识,使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中,我们评估了 TWOSOME
→
PDF
5 months ago
Prev
Next