俄语网络表格：基于维基百科的俄语网络表格公共语料库

Oct, 2022

俄语网络表格：基于维基百科的俄语网络表格公共语料库

Russian Web Tables: A Public Corpus of Web Tables for Russian Language Based on Wikipedia

Platon Fedorov, Alexey Mironov, George Chernishev

TL;DR本论文创建了首个俄语网络表格语料库，并开发了一个特殊工具以抓取俄语维基百科数据，用作数据提取、知识库构建、问题解答等任务的数据源及测试数据集。同时，对俄语维基百科表格及其统计数据做了简要研究。

Abstract

Corpora that contain tabular data such as webtables are a vital resource for the academic community. Essentially, they are the backbone of any modern research in information management. They are used for various tasks of data extraction, →

webtables data extraction knowledge base construction russian language wikipedia

发现论文，激发创造

GitTables：关系表的大规模语料库

通过从 GitHub 中提取的 GitTables 数据集，我们可以训练和评估应用于深度学习的高容量模型，以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述，我们可以提供人工注释一致的结果，并通过三个应用：语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试，展示 GitTables 的价值。

Jun, 2021

面向韩国的表格问答数据集

本文构建了韩国特定的数据集，包括 1.4M 个表和 70k 个问题。建立了基于 Transformer 的预训练语言模型以及针对这些数据集进行的表问答模型的微调。

Jan, 2022

WikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库

本文针对将生成维基百科文章作为一种数据到文本生成任务的问题，创建了一个大规模数据集 WikiTableT，该数据集包含了数以百万计的实例，覆盖了广泛的主题，并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析，结果表明最佳方法能够生成流畅和高质量的文本，但它们在连贯性和真实性方面仍面临挑战，这表明该数据集可以激发未来关于长篇文本生成的研究。

Dec, 2020

从互联网自动创建低资源语言文本语料库：以瑞士德语为例

SwissCrawl 是目前最大的瑞士德语文本语料库之一，是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库，在自然语言处理方面非常重要。在实验评估中，我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容，我们的方法会持续不断地运行以增加语料库的文本。

Nov, 2019

基于维基百科语料库的问答分析

此论文在对维基百科的四个语料库：WikiQA、SelQA、SQuAD 和 InfoQA 进行内部和外部分析后，提出了一种基于索引的方法来创建一个用于回答检索的银标准数据集，并建议更好地利用这些语料库来进行统计问答学习。

Jan, 2018

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

TabLib: 一个包含上下文的 6.27 亿个表格数据集

TabLib 是一个包含着 6.27 亿个表格和 86.7 亿个上下文 token 的庞大数据集，从各种格式的文件中提取而来，为表格模态提供了巨大的潜力。

Oct, 2023

基于内容的 Web 查询表格检索

本研究旨在解决自然语言处理中未结构化文本与半结构化表之间的关系问题，通过提出基于内容的表的检索方法，应用精心设计的特征和神经网络结构实现查找中最相关表格的目标，并发布了一个包含 21,113 个网络查询和 273,816 个表格的开放领域数据集，验证了该方法的有效性并提出了该任务的挑战。

Jun, 2017

利用列关键词回答网络表查询

本文介绍了一种设计良好的结构化搜索引擎，它以每列的关键词描述为查询的关键词，并利用网络上的海量表格来回答查询，用图形化模型来映射多个表格，并基于句子共现、匹配和内容重叠来描述查询。实验结果表明，该引擎比基线 IR 方法有显著的提高。

Jun, 2012