Mar, 2024

用程式化警告和提示数据集评估语言模型的隐性规划技能

TL;DR使用 PARADISE 数据集和任务,探讨大型语言模型在实际过程文本中推理和计划能力的强弱,发现使用任务特定的小型模型在大多数情况下效果更好,但所有模型都无法与人类表现相媲美。