Mar, 2024
用程式化警告和提示数据集评估语言模型的隐性规划技能
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset
Arda Uzunoğlu, Abdalfatah Rashid Safa, Gözde Gül Şahin
TL;DR使用 PARADISE 数据集和任务,探讨大型语言模型在实际过程文本中推理和计划能力的强弱,发现使用任务特定的小型模型在大多数情况下效果更好,但所有模型都无法与人类表现相媲美。