TabLib: 一个包含上下文的 6.27 亿个表格数据集
通过从 GitHub 中提取的 GitTables 数据集,我们可以训练和评估应用于深度学习的高容量模型,以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述,我们可以提供人工注释一致的结果,并通过三个应用:语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试,展示 GitTables 的价值。
Jun, 2021
TableBank 使用 Word 和 Latex 文档的弱监督,构建了一个新的基于图像的表格检测和识别数据集。该数据集包含 417K 个高质量标记的表格,并利用深度神经网络构建了多个强基线模型,旨在为表格检测和识别任务提供更多的深度学习方法。
Mar, 2019
构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下,在实例内分布生成方面胜过基线,并在生成超出分布的数据集时表现更好。
Jun, 2024
我们的研究展示了 LLM 在自动标注大量不同表格数据方面的潜力,通过 SQL 程序翻译、输入 - 目标列标注以及神经表格分类器的性能评估等研究,证明了 LLM 方法可以有效地自动标注大量表格数据并为各种具体的研究目标生成多样化的注释。
Jun, 2024
本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析,结果表明最佳方法能够生成流畅和高质量的文本,但它们在连贯性和真实性方面仍面临挑战,这表明该数据集可以激发未来关于长篇文本生成的研究。
Dec, 2020
本研究提出了一个基于编码器 - 解码器结构的深度学习模型,用于将表格图像转换为 HTML 代码,并使用一种新的基于 Tree-Edit-Distance 相似度(TEDS)度量方法实现表格识别,实验结果表明所提出的模型在复杂表格识别方面具有优秀的表现。
Nov, 2019
综述中介绍了大规模语言建模在表格数据建模相关任务中的应用,包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论,本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙,并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解,为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。
Feb, 2024
通过提取 TabLib 语料库中的一个大规模高质量训练数据集,我们针对表格数据预测问题,使用 Llama 3-8B 大型语言模型(LLM)进行微调,并采用一种新颖的填充和注意力机制,实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B,以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。
Jun, 2024
近期的文本和图像基础模型受到了极大的关注,本文旨在将机器学习研究社区的重点稍稍转向不同的模态:表格数据。表格数据是许多领域的主要模态,但在规模和能力方面明显落后,我们认为现在是开发表格基础模型(或我们所称的大型表格模型)的时候了。大型表格模型将可能从多个角度革新科学和机器学习对表格数据的使用:不仅仅是分析单个数据集,而是联系相关数据集进行分析。潜在的影响是广泛的:从少样本表格模型到自动化数据科学;从超分布合成数据到促进多学科科学发现。我们希望激发对我们所研究模态的思考,并使一些研究人员开始研究大型表格模型。
May, 2024
本文介绍 TabFact 数据集,其中包含 118k 人工标注的自然语言陈述,并以 16k 个 Wikipedia 表格作为证据,同时介绍了 Table-BERT 和 LPA,这两种算法都能在半结构化数据情况下进行事实验证,都有优点和不足之处,但是都能被进一步开发优化。
Sep, 2019