俄语网络表格:基于维基百科的俄语网络表格公共语料库
通过从 GitHub 中提取的 GitTables 数据集,我们可以训练和评估应用于深度学习的高容量模型,以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述,我们可以提供人工注释一致的结果,并通过三个应用:语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试,展示 GitTables 的价值。
Jun, 2021
本文构建了韩国特定的数据集,包括 1.4M 个表和 70k 个问题。建立了基于 Transformer 的预训练语言模型以及针对这些数据集进行的表问答模型的微调。
Jan, 2022
本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析,结果表明最佳方法能够生成流畅和高质量的文本,但它们在连贯性和真实性方面仍面临挑战,这表明该数据集可以激发未来关于长篇文本生成的研究。
Dec, 2020
SwissCrawl 是目前最大的瑞士德语文本语料库之一,是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库,在自然语言处理方面非常重要。在实验评估中,我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容,我们的方法会持续不断地运行以增加语料库的文本。
Nov, 2019
此论文在对维基百科的四个语料库:WikiQA、SelQA、SQuAD 和 InfoQA 进行内部和外部分析后,提出了一种基于索引的方法来创建一个用于回答检索的银标准数据集,并建议更好地利用这些语料库来进行统计问答学习。
Jan, 2018
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
Apr, 2020
TabLib 是一个包含着 6.27 亿个表格和 86.7 亿个上下文 token 的庞大数据集,从各种格式的文件中提取而来,为表格模态提供了巨大的潜力。
Oct, 2023
本研究旨在解决自然语言处理中未结构化文本与半结构化表之间的关系问题,通过提出基于内容的表的检索方法,应用精心设计的特征和神经网络结构实现查找中最相关表格的目标,并发布了一个包含 21,113 个网络查询和 273,816 个表格的开放领域数据集,验证了该方法的有效性并提出了该任务的挑战。
Jun, 2017
本文介绍了一种设计良好的结构化搜索引擎,它以每列的关键词描述为查询的关键词,并利用网络上的海量表格来回答查询,用图形化模型来映射多个表格,并基于句子共现、匹配和内容重叠来描述查询。实验结果表明,该引擎比基线 IR 方法有显著的提高。
Jun, 2012