针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调

Apr, 2024

针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调

Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian

Aleksa Cvetanović, Predrag Tadić

TL;DR使用改进的翻译 - 对齐 - 检索方法生成了最大的塞尔维亚问答数据集 SQuAD-sr，并使用该数据集对几个预训练的问答模型进行了微调，最佳结果表明我们的模型超过了零 - shot 基线但未超越人类表现。

Abstract

In this paper, we focus on generating a synthetic question answering (QA) dataset using an adapted Translate-Align-Retrieve method. Using this method, we created the largest serbian →

question answering qa dataset pre-trained models squad-sr serbian

发现论文，激发创造

面向多语言问答的 SQuAD 数据集自动西班牙语翻译

本文提出 Translate Align Retrieve (TAR) 方法，通过将 Stanford Question Answering Dataset（SQuAD）v1.1 自动翻译成西班牙语，创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统，并在 MLQA 和 XQuAD 基准测试上进行了评估，结果表明该方法优于 Multilingual-BERT 基线，达到了新的最高 69.1 F1 分数。

Dec, 2019

零样本跨语言问答的合成数据增强

本研究提出了一种方法来改善跨语言问答的表现，利用问答生成模型以跨语言的方式生成合成数据，无需额外标注数据，并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型，创造了新的最优性能水平。

Oct, 2020

通过往返一致性生成合成问答语料库

本研究介绍了一种通过结合问答生成和答案提取模型，过滤结果以确保往返一致性的方法生成合成问答语料库，并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进，建立了新的最先进技术的状态。我们的合成数据生成模型，无论是问答生成还是答案提取，都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体，对于问答生成执行完整的序列到序列预训练，可以在 SQuAD2 上取得与人类表现相差小于 0.1％和 0.4％的完全匹配和 F1 值。

Jun, 2019

SynDARin: 用于低资源语言的自动推理数据集合成

提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin，该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落，使用英语数据作为上下文生成合成的多项选择问题 - 回答对，并经过自动翻译和质量验证。人类评估显示，生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性，翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明，它们无法达到人类的准确性，部分模型的表现接近随机机会。这表明生成的数据集非平凡，并可用于评估低资源语言中的推理能力。

Jun, 2024

跨语言阅读理解的零样本多语言合成问答生成

使用单一生成模型在大规模上生成多语言问题和答案对，通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现，并在各种语言的 XQuAD 数据集上实现了较大的性能提升。

Oct, 2020

使用合成数据训练问答模型

通过利用大型语言模型，研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素，缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据，在 SQuAD 数据集上实现了良好的准确率，并在 SQuAD2.0 上显示出优于以前的工作的结果。

Feb, 2020

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

斯洛文尼亚语统一问答

本研究旨在将成功的英语问答方法 UnifiedQA 适应于资源较少的斯洛文尼亚语，使用编码器 - 解码器变压器 SloT5 和 mT5 模型，处理四种问答格式，并证明一般模型至少可以和专业模型一样回答不同格式的问题。同时，通过跨语言转移从英语中进一步提高了结果，尽管我们展示了斯洛文尼亚语领域的最新结果，但性能仍然落后于英语。

Nov, 2022

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

基于合成数据训练生成型问答模型

通过使用一种简单且经济高效的方法来合成数据以训练问答系统，本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法，并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法，并通过实验比较了从指导调优模型获得 QA 对的各种策略，结果表明，使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能，而无需付出人力成本。

Oct, 2023