MFAQ:多语言 FAQ 数据集
本研究介绍了 X-FACT 数据集,这是目前最大的公开的多语言事实验证数据集,其中包含 25 种语言的短语句,并由专业事实检查者标记真实性,数据集包含多语言评估基准测试,并使用现代化的多语言变压器模型开发了多个自动事实检查模型,实证表明模型的最佳性能 F1 分数约为 40%,因此是评估多语言事实检查模型的挑战性基准测试。
Jun, 2021
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集 “Multilingual Knowledge Questions and Answers”(MKQA),包括 10k 个问题 - 答案对,跨越 26 种语言(总计 260k 个问题 - 答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本文介绍了 MIA 2022 workshop 关于跨语言信息检索中的开放式提取问题回答(QA)系统评估的结果,并评估了 16 种语言中的系统性能表现。通过对 14 种语言的大规模跨语言开放式提取 QA 数据集进行改编以及对 Tagalog 和 Tamil 两种语言进行新的标记,共有 4 支队伍提交了他们的系统,最佳系统借助多样化的负样本和更大的预训练模型实现了 32.2 的 F1 值,而第二名则在 Tamil 语言的检索中取得了显著的进展。
Jul, 2022
该论文提出了一种用于 COQA 多语言问题解答的系统,该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究,并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。
May, 2022
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019
通过使用跨语言开放检索问题回答,扩展多语言问答任务,解决信息匮乏和信息不对称问题。在 TyDi QA 上构建了一个大规模数据集,并建立了三个跨语言文档检索任务的基线。利用机器翻译系统和跨语言预训练模型,在实验中得出 XOR QA 是一个具有挑战性的任务,将促进多语言问答技术的开发。
Oct, 2020
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 Seamless M4T)中选择和评估最佳翻译模型,并对 UQA 上的几个最先进的多语言问答模型进行基准测试,其中包括 mBERT,XLM-RoBERTa 和 mT5,报告了有希望的结果。通过展示 EATS 对于创建其他语言和领域的高质量数据集的效果,证明了 UQA 对于开发和测试乌尔都语的多语言 NLP 系统以及增强现有模型的跨语言可迁移性是有价值的。UQA 数据集和代码可在 www.github.com/sameearif/UQA 上公开获取。
May, 2024
本文介绍了基于 LSTM 和卷积神经网络的 mQA 模型,其可针对图像内容回答包括中英文在内的多语言问题,并使用 Freestyle Multilingual Image Question Answering (FM-IQA) 数据集进行评估,结果表明该模型在 64.7% 的情况下与人类回答无异,评分为 1.454。
May, 2015
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
该研究创建了一个跨 23 种不同语言的多语言基准测试,旨在评估语言模型中的事实知识检索能力,并提出了基于语言切换的方法来提高多语言模型获取知识的能力。
Oct, 2020