TaTa：非洲语言多语种表格生成文本数据集

Oct, 2022

TaTa：非洲语言多语种表格生成文本数据集

TaTa: A Multilingual Table-to-Text Dataset for African Languages

Sebastian Gehrmann, Sebastian Ruder, Vitaly Nikolaev, Jan A. Botha, Michael Chavinda...

TL;DR该研究创建了第一个专注于非洲语言的大型多语言表格生成文本数据集：TaTa，并通过深入的人类评估表明，TaTa 对当前模型具有挑战性，现有指标的表现不佳。

Abstract

Existing data-to-text generation datasets are mostly limited to English. To address this lack of data, we create Table-to-Text in african languages (TaTa), the first large →

data-to-text generation multilingual african languages table-to-text dataset human evaluation

发现论文，激发创造

ToTTo：一种受控表格转文本生成数据集

ToTTo 是一个开放领域的英文表格生成文本的数据集，通过控制生成任务，给定维基百科表格和一组突出显示的表格单元，产生一个句子的描述。

Apr, 2020

WikiTableT: 为生成维基百科文章章节而设计的大规模数据转文本语料库

本文针对将生成维基百科文章作为一种数据到文本生成任务的问题，创建了一个大规模数据集 WikiTableT，该数据集包含了数以百万计的实例，覆盖了广泛的主题，并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析，结果表明最佳方法能够生成流畅和高质量的文本，但它们在连贯性和真实性方面仍面临挑战，这表明该数据集可以激发未来关于长篇文本生成的研究。

Dec, 2020

Taxi1500：1500 种语言文本分类的多语言数据集

通过并行翻译圣经来开发广泛的主题，并利用众包工具收集标记数据，标注英文端的数据，并通过已对齐的诗句将标签映射到其他语言，从而为 1500 多种语言生成文本分类数据集，并对多个现有的多语言语言模型进行广泛基准测试。

May, 2023

MMTAfrica: 非洲语言的多语言机器翻译

本文描述了我们在 2021 年 WMT 共享任务：大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务，提出了第一个多对多非洲语言翻译系统 MMTAfrica，并介绍了一种新的反向翻译和重构目标 BT&REC，可有效利用单语数据。通过 MMTAfrica 在 FLORES 101 基准测试中的结果展示，取得了重大的改进和进步。

Apr, 2022

Tatoeba 翻译挑战：低资源和多语言 MT 的现实数据集

本文介绍了一种新的机器翻译基准，为超过 500 种语言的数千种语言对提供了训练和测试数据，并提供了从该集合创建最先进的翻译模型的工具，旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。

Oct, 2020

TIGQA：提格里尼亚语的专家标注问答数据集

使用机器翻译将现有数据集转化为 Tigrinya 数据集，构建了 TIGQA 专家注释的教育数据集，通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力，使用最先进的 MRC 方法进行了实验，并与人类表现进行对比，结果强调了对 TIGQA 的进一步研究增强的潜力。

Apr, 2024

面向韩国的表格问答数据集

本文构建了韩国特定的数据集，包括 1.4M 个表和 70k 个问题。建立了基于 Transformer 的预训练语言模型以及针对这些数据集进行的表问答模型的微调。

Jan, 2022

TAT-QA：面向金融领域表格和文本混合内容的问答基准

本文提出了一个新的 QA 数据集 TAT-QA，并提出了一个新的 QA 模型 TAGOP，该模型可以同时推理表格和文本的含义，但该模型的 F1 值达到了 58.0％，距离专家水平还有较大的差距（90.8％），本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。

May, 2021

BibleTTS：一个大型、高保真、多语种且独特的非洲语音语料库

BibleTTS 是一个由 Open.Bible 项目自 Biblica 发布的圣经记录而来的语音数据集，共有十种撒哈拉以南非洲的语言，为各种语言的文本转语音模型的开发提供了高质量的 48kHz 单人演讲录音素材。

Jul, 2022

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022