多语言开放文本发布1：44种语言的公共领域新闻

Jan, 2022

多语言开放文本发布1：44种语言的公共领域新闻

Multilingual Open Text 1.0: Public Domain News in 44 Languages

Chester Palen-Michel, June Kim, Constantine Lignos

TL;DR我们介绍了Multilingual Open Text，这是一个包含44种语言文本的多语言语料库，包含超过280万条新闻文章和100万条短片段，源材料在公共领域，语料库将定期更新。

Abstract

We present a new multilingual corpus containing text in 44 languages, many of which have relatively few existing resources for natural language p

发现论文，激发创造

MaSS：基于圣经的大型干净语言对齐口语预料库

提出 MaSS 数据集，基于世界各地包含该圣经的语言录制了8,130个平行口语表达，通过样本质量的人工评估，证明了该数据集对构建自然语言处理系统（尤其是多语言间的语音转写和翻译任务）的有效性。

Jul, 2019

Europarl-ST：面向议会辩论的语音翻译多语种语料库

本研究通过收集欧洲议会在2008年至2012年期间进行的演讲，创建了一个新型的包括6种欧洲语言互相翻译的语音和文本样本的多语种SLT语料库Europarl-ST，并展示了一系列的语音识别、机器翻译和口语翻译实验。

Nov, 2019

Common Voice: 一個大規模多語言語音語料庫

Common Voice是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括29种语言，收集了超过2500小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和Twitter数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

BigScience ROOTS Corpus：一个1.6TB的复合多语言数据集

BigScience团队创建了Responsible Open-science Open-collaboration Text Sources (ROOTS)语料库，这是一个包含59种语言和1.6TB数据的语料库，用于训练1760亿参数的BigScience Large Open-science Open-access Multilingual (BLOOM)语言模型，并释放了这一语料库的较大子集，希望为大规模单语和多语言建模项目提供数据和处理工具，并刺激关于这个大型多语言语料库的研究。

Mar, 2023

Vārta：Indic 语系大规模标题生成数据集

Varta是一个大规模的多语言数据集，用于生成印度语言的标题。该数据集包含14种不同的印度语言（以及英语）的4180万篇新闻文章，是目前可用的经过精心筛选的印度语言文章的最大集合。该数据集可以用于预训练强大的语言模型，其表现优于竞争基线，在NLU和NLG基准测试中均表现出色。

May, 2023

Glot500: 将多语言语料库和语言模型扩展到500种语言

该研究开发了覆盖511种语言的大型多语言模型Glot500-m，通过将其预训练与应用于5种不同语言任务中表现出较好的表现，探讨了多语言LLM的质量因素，旨在实现NLP技术在尽可能多的语言和文化中的应用。

May, 2023

大规模多语种情感数据集和多方面情感分类基准

该研究提供了一个由79个数据集组成的开放性跨语言语料库，可用于培训情感模型，同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。

Jun, 2023

一种新的大规模多语言数据集用于高性能语言技术

我们介绍了HPLT（高性能语言技术）语言资源，这是一个包括来自CommonCrawl和互联网档案的先前未使用的网络爬取的单语和双语语料库的大规模多语言数据集。我们描述了我们采集、管理和处理大型语料库的方法，这些方法依赖于开源软件工具和高性能计算。我们的单语语料库主要关注资源较低到中等的语言，涵盖75种语言和总共大约5.6万亿个单词（根据文档级别去重）。我们的以英语为中心的平行语料库源自于单语语料库，涵盖18种语言对，包括超过9600万个对齐的句子对和大约14亿个英语单词。HPLT语言资源是迄今为止史上最大的开放文本语料库之一，为语言建模和机器翻译训练提供了极好的资源。我们公开发布了本工作中使用的语料库、软件和工具。

Mar, 2024

2024年新浪在FigNews上的多语言数据集带有偏见和宣传注释

社交媒体上偏见和宣传的蔓延日益引起关注，本文提出了一个多语种语料库，包含了12,000条Facebook帖子，对偏见和宣传进行了全面注释。

Jul, 2024