EMNLPOct, 2023

NameGuess:表格数据的列名扩展

TL;DR最近,大型语言模型在许多领域取得了突破性进展,包括数据库行业。处理大量表格数据时的一个常见挑战是广泛使用缩写列名,这可能对各种数据搜索、访问和理解任务产生负面影响。为了解决这个问题,我们引入了一项名为 NameGuess 的新任务,将列名扩展为自然语言生成问题(用于数据库模式)。我们使用一种新的数据制作方法创建了一个包含 384K 个缩写 - 扩展列对的训练数据集,并且制定了一个包含来自真实世界表格的 9.2K 个示例的人工评估基准。为了应对 NameGuess 中多义性和歧义性的复杂性,我们通过在表格内容和列头名称上进行条件约束,改进了自回归语言模型,从而得到了一个(含有 2.7B 个参数)能够与人类表现相匹配的微调模型。此外,我们进行了一项综合分析(对多个大型语言模型),以验证表格内容在 NameGuess 中的有效性,并确定有前景的未来机会。我们在此 https URL 提供了代码。