EDGAR-CORPUS: 数十亿令牌推动世界运转
KPI-EDGAR 是一个基于文件上传到 EDGAR 系统的财务报告的联合命名实体识别和关系提取的数据集,该数据集的主要目标是从财务文件中提取关键绩效指标,并将它们链接到他们的数值和其他属性。我们还提供了四个附带的基准测试,用于衡量未来潜在的研究成果。此外,我们提出了一种新的成功度量方式,通过将单词级加权方案纳入传统的 F1 分数来更好地模拟该领域实体对的本质模糊边界。
Oct, 2022
介绍了 DepCC,这是迄今为止最大的英文语言分析语料库,包括 365 万份文档,由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成,可以通过一些应用程序使用,例如基于句法的词嵌入训练,信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引,可以快速搜索整个语料库,并在动词相似性任务上证明了其效用,显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。
Oct, 2017
通过使用多达 1 PB 的 Common Crawl 数据,我们提出了 esCorpius,一个高质量的西班牙网络爬取语料库,利用了新颖的高度并行的清理管道和多种去重机制,以确保文档和段落边界的完整性,并遵守欧盟法规。
Jun, 2022
本文介绍了标准化项目古腾堡语料库(SPGC),这是一个由超过 50000 本书组成、包含 30 亿词组标记的项目古腾堡数据的版本,旨在解决 PG 缺乏共识版完整版本并考虑其对文学研究的影响。我们公开了详细的方法论以及用于处理数据的代码和三个粒度的 PG 数据,使其成为语料库、自然语言处理和信息检索新的科学资源。
Dec, 2018
本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER,它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降,与在 E-NER 数据集上训练和测试相比,F1 分数下降了 29.4%至 60.4%。
Dec, 2022
本文介绍了 CREER 数据集的设计和使用,该数据集注释了丰富的英语语法和语义属性,使用 Stanford CoreNLP Annotator 从维基百科明文中捕获语言结构,并遵循广泛使用的语言和语义注释,可以用于大多数自然语言处理任务以及数据集的扩展。这个大型监督式数据集可作为未来改进 NLP 任务性能的基础,并通过链接公开发布。
Apr, 2022
研究介绍了一个自由可用的英语网络语料库,使用高质量的自动注释层来提供大规模的替代手动创建注释数据集,并评估了结果的准确性。
Jun, 2020
我们创建了 ESG-FTSE 语料库,其中包含了带有 ESG 相关标注的新闻文章。我们开创了 ESG 标注方案,并进行了相关实验,证明该语料库可以用于准确的 ESG 预测。
May, 2024
本文介绍了 CLUE 组织的中文语料库 CLUECorpus2020,它是一个大规模的语料库,可直接用于自监督学习。它有 100G 原始语料库,其中包含 350 亿个中文字符,可以用于语言生成和语言模型的预训练。该论文进行了小型和大型的语言理解实验,结果显示训练在此语料库上的模型可以在中文上取得出色的性能。作者还发布了一个新的中文词汇表和经过预训练的模型(大型和小型版本),并将其代码和数据集发布在 Github 上供社区使用。
Mar, 2020
本文介绍了 BloombergGPT, 这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练,我们得到的模型不仅在金融任务上表现出色,还在普遍的 LLM 基准测试上得到了不错的表现,同时也解释了模型构建、训练过程和评估方法。
Mar, 2023