Apr, 2024

只有 LLMs 可以进行推理吗?:小型语言模型在任务规划中的潜力

TL;DR通过构建 COmmand-STeps(COST)数据集,我们比较了 GPT3.5 和 GPT4 与 finetuned GPT2 在桌面和厨房环境中的任务规划表现,结果表明 GPT2-medium 在特定领域的任务规划上与 GPT3.5 相当。