TaTa:非洲语言多语种表格生成文本数据集
本文针对将生成维基百科文章作为一种数据到文本生成任务的问题,创建了一个大规模数据集 WikiTableT,该数据集包含了数以百万计的实例,覆盖了广泛的主题,并且包含了多种不同水平灵活性的生成任务。在该数据集上进行了多种训练和解码策略的评估和分析,结果表明最佳方法能够生成流畅和高质量的文本,但它们在连贯性和真实性方面仍面临挑战,这表明该数据集可以激发未来关于长篇文本生成的研究。
Dec, 2020
通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。
May, 2023
本文描述了我们在 2021 年 WMT 共享任务:大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务,提出了第一个多对多非洲语言翻译系统 MMTAfrica,并介绍了一种新的反向翻译和重构目标 BT&REC,可有效利用单语数据。通过 MMTAfrica 在 FLORES 101 基准测试中的结果展示,取得了重大的改进和进步。
Apr, 2022
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。
Oct, 2020
使用机器翻译将现有数据集转化为 Tigrinya 数据集,构建了 TIGQA 专家注释的教育数据集,通过综合分析展示了 TIGQA 数据集需要单句和多句推理能力,使用最先进的 MRC 方法进行了实验,并与人类表现进行对比,结果强调了对 TIGQA 的进一步研究增强的潜力。
Apr, 2024
本文构建了韩国特定的数据集,包括 1.4M 个表和 70k 个问题。建立了基于 Transformer 的预训练语言模型以及针对这些数据集进行的表问答模型的微调。
Jan, 2022
本文提出了一个新的 QA 数据集 TAT-QA,并提出了一个新的 QA 模型 TAGOP,该模型可以同时推理表格和文本的含义,但该模型的 F1 值达到了 58.0%,距离专家水平还有较大的差距(90.8%),本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。
May, 2021
BibleTTS 是一个由 Open.Bible 项目自 Biblica 发布的圣经记录而来的语音数据集,共有十种撒哈拉以南非洲的语言,为各种语言的文本转语音模型的开发提供了高质量的 48kHz 单人演讲录音素材。
Jul, 2022
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022