一份用于评估机器阅读理解的越南语数据集

COLINGSep, 2020

一份用于评估机器阅读理解的越南语数据集

A Vietnamese Dataset for Evaluating Machine Reading Comprehension

Kiet Van Nguyen, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen

TL;DR本研究为缺乏基准数据集的低资源语言（如越南语）创建了一个新的数据集 UIT-ViQuAD，包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果，结果表明，未来的研究可以提高越南 MRC 的准确度和性能。

Abstract

Over 97 million people speak Vietnamese as their native language in the world. However, there are few research studies on machine reading comprehension (MRC) for Vietnamese, the task of understanding a text and answering questions related to it. Due to the lack of benchmark datasets fo

vietnamese language machine reading comprehension dataset creation low-resource language question answering

发现论文，激发创造

VLSP 2021 - ViMRC 挑戰賽：越南機器閱讀理解

本文介绍了一个名为 UIT-ViQuAD 2.0 的越南文机器阅读理解数据集，它可以用于评估和研究机器阅读理解任务和相关任务，如问答、问句生成和自然语言推理。该数据集吸引了 77 个团队参与，其中表现最好的三个团队使用基于 Transformer 结构的强大的预训练语言模型 XLM-RoBERTa，其准确率在 F1 得分方面为 77.24％，在 Exact Match 方面为 67.43％。

Mar, 2022

面向越南语教育的多项选择阅读理解语料库

提出了 ViMMRC 2.0，结合多步骤的注意力神经网络和自然语言推理任务，对越南语文本进行了阅读理解测试，结果表明其在新数据集上的测试正确率最高可达 58.81％。

Mar, 2023

VlogQA: 越南口语问答的任务、数据集和基线模型

通过捕捉越南母语者在自然环境中的口语表达，这篇论文描述了一个用于机器阅读理解任务的越南口语语料库的开发过程，并提供了使用真实数据进行机器阅读理解任务所面临的挑战和机遇的见解。

Feb, 2024

健康新闻文章机器阅读理解的新越南语语料库

介绍了 ViNewsQA，这是用于越南语的一种新的用于评估医疗领域阅读理解模型的语料库，其中包含 22057 个人工生成的问题 - 答案对和比较人类和不同机器阅读理解方法的性能，其中 ALBERT 模型在该语料库上获得了最好的性能。

Jun, 2020

越南多项选择阅读理解的深度神经网络模型实验研究

本文介绍了利用多个神经网络模型对低资源语言（越南语）中的多项选择机器阅读理解的影响进行的实验，其中使用了六种不同的越南语单词嵌入和 BERT 模型，在 ViMMRC 语料库上的测试集中，BERT 模型的准确率为 61.28％。

Aug, 2020

VisualMRC：基于文档图片的机器阅读理解

本研究提出了一个名为 VisualMRC 的新的视觉机器阅读理解数据集，包含来自多个网络域的 10,000 多个文档图像，以及 30,000 多个问题和答案对，以帮助发展自然语言理解和生成能力。此外，研究还引入了一个扩展了现有序列到序列模型的新模型，以考虑文档的视觉布局和内容。该模型在自动评估度量方面优于基本序列到序列模型和最先进的 VQA 模型，但其性能仍低于大多数人类表现。该数据集将有助于将视觉和语言理解联系起来的研究。

Jan, 2021

UIT-ViCoV19QA: 一份越南语 COVID-19 社区问答数据集

Vietnamese researchers presented UIT-ViCoV19QA, the first community-based question answering dataset for COVID-19 from trusted medical sources with multiple paraphrased answers evaluated through deep learning models using commonly used metrics, mainly BLEU, METEOR, and ROUGE-L, which demonstrated significant improvements, and concluded that the deep learning method, especially the Transformer architecture, is dominant in the field of study.

Sep, 2022

KorQuAD1.0：针对机器阅读理解的韩文问答数据集

该研究介绍了韩语问答数据集（KorQuAD），这是一个用于机器阅读理解的大型韩语数据集，有助于自动回答语音机器人和自动化客户支持系统的开发。

Sep, 2019

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017

UIT-ViIC: 越南图像字幕第一次评估的数据集

本研究扩展了数据集，提供了第一个越南语图像字幕数据集（UIT-ViIC），该数据集包含 19,250 个越南语字幕和 3,850 张图片，我们在深度神经网络模型上对其进行了评估并与英语数据集和其他两个越南语数据集进行了比较。

Feb, 2020