斯洛文尼亚语统一问答

Nov, 2022

Unified Question Answering in Slovene

Katja Logar, Marko Robnik-Šikonja

TL;DR本研究旨在将成功的英语问答方法 UnifiedQA 适应于资源较少的斯洛文尼亚语，使用编码器 - 解码器变压器 SloT5 和 mT5 模型，处理四种问答格式，并证明一般模型至少可以和专业模型一样回答不同格式的问题。同时，通过跨语言转移从英语中进一步提高了结果，尽管我们展示了斯洛文尼亚语领域的最新结果，但性能仍然落后于英语。

Abstract

question answering is one of the most challenging tasks in language understanding. Most approaches are developed for English, while less-resourced languages are much less researched. We adapt a successful English question-answering approach, called →

question answering unifiedqa slot5 mt5 cross-lingual transfer

发现论文，激发创造

针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调

使用改进的翻译 - 对齐 - 检索方法生成了最大的塞尔维亚问答数据集 SQuAD-sr，并使用该数据集对几个预训练的问答模型进行了微调，最佳结果表明我们的模型超过了零 - shot 基线但未超越人类表现。

Apr, 2024

UnifiedQA：通过单一的 QA 系统跨越格式界限

该论文介绍了一种基于最新的语言建模技术构建的单一预训练问答模型 UnifiedQA，该模型在 17 个问题回答数据集中表现出色，甚至在面对 12 个观察过的格式数据集时也表现出了强大的泛化能力，并且该模型通过简单的微调就可以成为构建 QA 系统的强有力起点。

May, 2020

将多语言模型应用于问答（QA）

研究单语和多语言语言模型在英语、芬兰语和日语问答任务中的表现，并开发用于判断问题是否可回答和标识上下文中答案的模型，并尝试评估预训练的多语言编码器（Multilingual BERT）在跨语言零 - shot 学习中的效果。

Dec, 2022

为低资源语言构建高效高效的 OpenQA 系统

在这篇论文中，我们展示了能够为低资源语言开发有效且成本低廉的 OpenQA 系统的关键要素，其中包括利用机器翻译标注数据的弱监督和目标语言中相关的非结构化知识源。我们以土耳其语为挑战性案例研究，通过 ColBERT-QA 对 SQuAD-TR 进行了调整来构建我们的 OpenQA 系统。在使用两个跨足两年的维基百科转储版本的基础上，我们与基于 BM25 和 DPR 的 QA 读取器模型相比，在 EM 得分上获得了 9-34% 的性能提升以及 F1 得分上的 13-33% 的性能提升。我们希望我们的结果可以鼓励研究人员在其他低资源语言中构建 OpenQA 系统，并将所有的代码、模型和数据集公开提供。

Jan, 2024

UQA: 乌尔都问答语料库

介绍了 UQA，一个用于乌尔都语（Urdu）问答和文本理解的新数据集，通过一种称为 EATS 的技术，将斯坦福问答数据集（SQuAD2.0）的答案段落的翻译上下文中的答案范围进行保留，在两个候选项（Google Translator 和 Seamless M4T）中选择和评估最佳翻译模型，并对 UQA 上的几个最先进的多语言问答模型进行基准测试，其中包括 mBERT，XLM-RoBERTa 和 mT5，报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果，证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。

May, 2024

斯洛文尼亚超级 GLUE 基准：翻译和评估

通过描述 Slovene combined machine-human translated SuperGLUE benchmark 的翻译过程中出现的问题，我们评估了单语、跨语言以及多语言等三种模式下的表现，并发现单语斯洛文尼亚语 SloBERTa 模型优于大规模多语言和三语 BERT 模型。但这些模型在某些任务上展现出良好的跨语言表现。

Feb, 2022

学习回答多语言和混合代码问题

本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术，涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术，实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现，是通用的，可用于提高 QA 系统性能。

Nov, 2022

走向更加公平的问答系统：需要多少更多的数据？

本研究探讨如何通过自动翻译和排列组合技术将已有的数据资源应用到多语种的问答系统中，并进行深入分析和提出未来数据集开发的建议，以提高多语种问答系统的覆盖面。

May, 2021

MahaSQuAD：马拉地语问答中的语言桥梁

通过使用强大的数据策划方法，我们翻译了英语问答数据集（SQuAD），解决了低资源语言中无高效问答数据集的问题。我们引入了 MahaSQuAD，这是第一个适用于印度马拉地语的完整 SQuAD 数据集，包含 118,516 个训练样本、11,873 个验证样本和 11,803 个测试样本。另外，我们还提供了一个手动验证的黄金测试集，包含 500 个例子。通过解决上下文和语言细微差异的挑战，我们确保了准确的翻译。此外，由于无法简单地将问答数据集直接转换为任何低资源语言，我们需要一种强大的方法将答案翻译映射到译文段落中的相应部分。因此，为了解决这一挑战，我们还提出了一种通用方法，可以将 SQuAD 翻译成任何低资源语言。因此，在问题回答系统领域，我们提供了一种可扩展的方法，弥合了低资源语言中存在的语言和文化差距。数据集和模型已公开共享于此 https URL。

Apr, 2024

低资源印度语言马拉地问题回答的深度学习

使用不同的 Transformer 模型，我们创建了一个基于阅读理解的马拉提语问答系统，并在马拉提语阅读理解数据集上通过对 MuRIL 多语言模型进行微调，获得了最佳准确性，EM 得分为 0.64，F1 得分为 0.74。

Sep, 2023