NameGuess：表格数据的列名扩展

EMNLPOct, 2023

NameGuess: Column Name Expansion for Tabular Data

Jiani Zhang, Zhengyuan Shen, Balasubramaniam Srinivasan, Shen Wang, Huzefa Rangwala...

TL;DR最近，大型语言模型在许多领域取得了突破性进展，包括数据库行业。处理大量表格数据时的一个常见挑战是广泛使用缩写列名，这可能对各种数据搜索、访问和理解任务产生负面影响。为了解决这个问题，我们引入了一项名为 NameGuess 的新任务，将列名扩展为自然语言生成问题（用于数据库模式）。我们使用一种新的数据制作方法创建了一个包含 384K 个缩写 - 扩展列对的训练数据集，并且制定了一个包含来自真实世界表格的 9.2K 个示例的人工评估基准。为了应对 NameGuess 中多义性和歧义性的复杂性，我们通过在表格内容和列头名称上进行条件约束，改进了自回归语言模型，从而得到了一个（含有 2.7B 个参数）能够与人类表现相匹配的微调模型。此外，我们进行了一项综合分析（对多个大型语言模型），以验证表格内容在 NameGuess 中的有效性，并确定有前景的未来机会。我们在此 https URL 提供了代码。

Abstract

Recent advances in large language models have revolutionized many sectors, including the database industry. One common challenge when dealing with large volumes of tabular data is the pervasive use of abbreviated

large language models database industry column names nameguess auto-regressive language models

发现论文，激发创造

表格数据任务的自动提示生成系统

通过创新自动生成系统，本文提出了两种新方法：一种基于强化学习的算法用于识别和排序与任务相关的列，另一种基于单元格相似性的方法用于增强少样例选择，该方法在 66 个数据集上经过了广泛测试，并使用两个不同的大型语言模型（Google flan-t5-xxl 和 Mixtral 8x7B）在数据填充、错误检测和实体匹配三个下游任务中展现出改进的性能。

May, 2024

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

使用大型语言模型匹配表格元数据与业务词汇

使用大型语言模型的方法，无需手动调整，能够匹配表格元数据和业务词汇，从而实现对结构化数据的检索和分析。

Sep, 2023

Wiki-TabNER：通过命名实体识别推进表格解释

为了弥补现有评估数据集的不足，本研究构建了一个更具挑战性的数据集，并引入了一种新颖的问题，用于解决实体链接任务，即对单元格中的命名实体进行识别。最后，我们提出了一个提示框架，以评估新开发的大型语言模型在这一新的表格解释任务上的表现。

Mar, 2024

使用受控词汇进行列标题的文本分类：利用语言模型进行元数据增强

传统数据集检索系统主要依赖元数据信息进行索引，而不是数据值。本文提出了一种使用三个大型语言模型 (ChatGPT-3.5、GoogleBard 和 GoogleGemini) 对列标题进行主题注释的元数据增强方法。通过评估模型的内部一致性、机器间对齐性和人机一致性来验证模型的能力，并研究上下文信息对分类结果的影响。结果表明，ChatGPT 和 GoogleGemini 在内部一致性和模型 - 人的一致性方面优于 GoogleBard。有趣的是，我们发现上下文对于语言模型的表现没有影响。本文提出了一种使用控制主题词汇来利用语言模型进行文本分类的新方法，有潜力促进自动化的元数据增强，从而提升在 Web 上的数据集检索、查找性、可访问性、互操作性和可重用性 (FAIR)。

Mar, 2024

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022

AnnotatedTables：一份带有语言模型注释的大型表格数据集

我们的研究展示了 LLM 在自动标注大量不同表格数据方面的潜力，通过 SQL 程序翻译、输入 - 目标列标注以及神经表格分类器的性能评估等研究，证明了 LLM 方法可以有效地自动标注大量表格数据并为各种具体的研究目标生成多样化的注释。

Jun, 2024

WikiTableEdit: 自然语言指令下的表格编辑基准

本研究通过 WikiTableEdit 数据集，评估大型语言模型在不规则结构的表格编辑任务中的表现，提出了使用自然语言指令进行表格编辑的挑战，并将数据集发布给社区推进相关研究。

Mar, 2024