野外网络文档流派识别的 GINCO 训练数据集

Jan, 2022

野外网络文档流派识别的 GINCO 训练数据集

The GINCO Training Dataset for Web Genre Identification of Documents Out in the Wild

Taja Kuzman, Peter Rupnik, Nikola Ljubešić

TL;DR本文给出了一个新的训练数据集 GINCO，用于自动体裁识别。该数据集基于 1,125 个斯洛文尼亚网络文档，每个文档由新注释模式手动注释。在该数据集上进行机器学习实验表明，使用 Transformer 模型可以大大提高识别准确率。

Abstract

This paper presents a new training dataset for automatic genre identification GINCO, which is based on 1,125 crawled Slovenian web documents that consist of 650 thousand words. Each document was manually annotated for genre with a new →

genre identification machine learning nlp annotation schema transformer models

发现论文，激发创造

面向语句理解的广覆盖挑战语料库

介绍了一个用于机器学习模型开发和评估的数据集，以句子理解为主题并提到该数据集是目前最大的语料库之一，具有覆盖十种不同英语写作和口语体裁的数据，可评估跨体裁领域适应系统。

Apr, 2017

关于种族灭绝相关的法庭记录中基于主题的段落分类的新数据集

本文介绍了第一份带有注释的种族屠杀相关法庭记录的语料库 GTC，并运用最新的基于 transformer 的方法建立了段落标识及暴力相关证词提取的基准性能用于分类任务，探索了领域内的迁移学习。

Apr, 2022

基于流派的弱监督跨语言依存分析

本文研究表明，单语掩模语言模型学习表示数据驱动的语言变化概念，可用于目标导向的训练数据选择。作者将数据集类型标签作为弱监督信号，用于零样本依存分析中的有针对性数据选择。作者还表明，数据集类型是可恢复的，并且提供了一个有效的信号用于跨语言零样本情况下的训练数据选择。

Sep, 2021

MultiCoNER：一个用于复杂命名实体识别的大型多语言数据集

介绍了一种名为 MultiCoNER 的大型多语言数据集，可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试，并对其进行了评估。建立的模型都表现出了不俗的性能，但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。

Aug, 2022

Transformer 基于的代码混合卡纳达语 - 英语文本字级语言识别模型

本文介绍了 CIC 团队使用 Transformer 模型对 CoLI-Kenglish 数据集进行词级别语言鉴别的系统描述，其中提出了在 NLP 中使用 code-mixed 数据的研究，并探讨了社交媒体的影响。该模型在数据集中取得了 0.84 的加权 F1 分数和 0.61 的宏 F1 分数。

Nov, 2022

CLASSLA-web: 含有语言和体裁标注的南斯拉夫语言可比网页语料库

本文介绍了一套高度可比的斯拉夫南部语言空间中斯洛文尼亚、克罗地亚、波斯尼亚、黑山、塞尔维亚、马其顿和保加利亚的网络语料库，总计包含了来自 2600 万个文档的 130 亿个文本标记。这些语料库的可比性通过统一的爬取设置和相同的爬取和后处理技术得到保证，它们都经过了最先进的 CLASSLA-Stanza 语言处理管道的语言注释，并通过基于 Transformer 的多语言 X-GENRE 分类器增强了文档级别的体裁信息，从而进一步提高了语言注释和元数据的可比性。对这些语料库进行的体裁分析表明，七个语料库中的体裁分布相对一致，各语言社区的经济实力解释了最主要的体裁类别的变化。对比不同语料库中的体裁类别分布显示，来自较不发达国家的网络语料库主要由新闻文章构成，而来自经济更发达国家的网络语料库则新闻内容的比例较小，而推广和观点性文本的比例较大。

Mar, 2024

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

一种跨类别集成方法以提高 Reddit 实体标记的鲁棒性

本研究探讨使用不同语料库训练的最新词性标注模型在 Reddit 论坛讨论帖子等用户生成数据中的表现，发现即便少量的 in-domain 数据，也能胜过大量来自其他 Web 领域的数据，同时也提出多种错误类型的分类，并使用集成学习法提高了模型的性能。

Apr, 2020

DocGenome：用于训练和测试多模态大型语言模型的开放式大规模科学文档基准

通过提取自科学文档中的多模态数据，并评估大型模型处理科学文档任务的能力，对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome，这是一个结构化文档基准，通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释，它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势，并客观评估了大型模型在我们的基准上的性能。

Jun, 2024

音乐生成是否能够为 MIR 任务创建训练数据？

通过使用基于人工智能的生成音乐系统为音乐信息检索（MIR）任务生成训练数据，我们探讨了更广泛的概念。为了启动这个研究方向，我们进行了一项初步实验，利用 MusicGen 创建了一个完全人工的音乐数据集，在此基础上我们训练了一个流派分类器。我们制作了超过 50,000 个以流派为条件的文本描述，并生成了一系列覆盖五种音乐流派的音乐片段。我们的初步结果表明，所提出的模型能够从人工音乐曲目中学习到流派特定的特征，并在现实世界的音乐录音中推广得很好。

Nov, 2023