针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调
本文提出 Translate Align Retrieve (TAR) 方法,通过将 Stanford Question Answering Dataset(SQuAD)v1.1 自动翻译成西班牙语,创建了大规模的西班牙语 QA training dataset。使用此数据集通过微调 Multilingual-BERT 模型训练了西班牙语 QA 系统,并在 MLQA 和 XQuAD 基准测试上进行了评估,结果表明该方法优于 Multilingual-BERT 基线,达到了新的最高 69.1 F1 分数。
Dec, 2019
本研究提出了一种方法来改善跨语言问答的表现,利用问答生成模型以跨语言的方式生成合成数据,无需额外标注数据,并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型,创造了新的最优性能水平。
Oct, 2020
本研究介绍了一种通过结合问答生成和答案提取模型,过滤结果以确保往返一致性的方法生成合成问答语料库,并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进,建立了新的最先进技术的状态。我们的合成数据生成模型,无论是问答生成还是答案提取,都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体,对于问答生成执行完整的序列到序列预训练,可以在 SQuAD2 上取得与人类表现相差小于 0.1%和 0.4%的完全匹配和 F1 值。
Jun, 2019
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。
Jun, 2024
使用单一生成模型在大规模上生成多语言问题和答案对,通过多任务训练的生成模型来改进跨语言 QA 模型的零 - shot 表现,并在各种语言的 XQuAD 数据集上实现了较大的性能提升。
Oct, 2020
通过利用大型语言模型,研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素,缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据,在 SQuAD 数据集上实现了良好的准确率,并在 SQuAD2.0 上显示出优于以前的工作的结果。
Feb, 2020
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。
May, 2024
本研究旨在将成功的英语问答方法 UnifiedQA 适应于资源较少的斯洛文尼亚语,使用编码器 - 解码器变压器 SloT5 和 mT5 模型,处理四种问答格式,并证明一般模型至少可以和专业模型一样回答不同格式的问题。同时,通过跨语言转移从英语中进一步提高了结果,尽管我们展示了斯洛文尼亚语领域的最新结果,但性能仍然落后于英语。
Nov, 2022
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
通过使用一种简单且经济高效的方法来合成数据以训练问答系统,本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法,并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法,并通过实验比较了从指导调优模型获得 QA 对的各种策略,结果表明,使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能,而无需付出人力成本。
Oct, 2023