Oct, 2023

记住过去,明确下一步怎么做

TL;DR使用中等大小的大型语言模型(GPT-J 6B 参数),计划在科学世界中为模拟机器人实现 30 类目标,结果发现大语言模型在性能上优于强化学习,而且性能表现因任务而异。