Feb, 2024

StructLM: 构建用于结构化知识建模的通用模型

TL;DR结构化数据是普遍的知识源,大型语言模型在处理结构化数据方面存在显著不足,为了增加语言模型中的结构化知识落地能力,研究人员开发了一种全面的指导调整数据集,并利用此数据集训练了一系列基于 Code-LLaMA 架构的模型,横跨 7B 到 34B 参数范围。这些模型在 18 个评估数据集中有 14 个超越了任务专用模型,并在 7 个结构化知识落地任务中取得了新的最佳成果。此外,这些模型在 6 个新的结构化知识落地任务上表现出出色的泛化能力。然而,我们观察到模型规模的扩大只能带来些微的改进,这表明结构化知识落地仍然是一个具有挑战性的任务,需要更多创新的设计突破新的领域。