面向越南语教育的多项选择阅读理解语料库

Mar, 2023

面向越南语教育的多项选择阅读理解语料库

A Multiple Choices Reading Comprehension Corpus for Vietnamese Language Education

Son T. Luu, Khoi Trong Hoang, Tuong Quang Pham, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen

TL;DR提出了 ViMMRC 2.0，结合多步骤的注意力神经网络和自然语言推理任务，对越南语文本进行了阅读理解测试，结果表明其在新数据集上的测试正确率最高可达 58.81％。

Abstract

machine reading comprehension has been an interesting and challenging task in recent years, with the purpose of extracting useful information from texts. To attain the computer ability to understand the reading text and answer relevant information, we introduce →

machine reading comprehension vimmrc 2.0 multiple-choice attention network vietnamese

发现论文，激发创造

越南多项选择阅读理解的深度神经网络模型实验研究

本文介绍了利用多个神经网络模型对低资源语言（越南语）中的多项选择机器阅读理解的影响进行的实验，其中使用了六种不同的越南语单词嵌入和 BERT 模型，在 ViMMRC 语料库上的测试集中，BERT 模型的准确率为 61.28％。

Aug, 2020

VLSP 2021 - ViMRC 挑戰賽：越南機器閱讀理解

本文介绍了一个名为 UIT-ViQuAD 2.0 的越南文机器阅读理解数据集，它可以用于评估和研究机器阅读理解任务和相关任务，如问答、问句生成和自然语言推理。该数据集吸引了 77 个团队参与，其中表现最好的三个团队使用基于 Transformer 结构的强大的预训练语言模型 XLM-RoBERTa，其准确率在 F1 得分方面为 77.24％，在 Exact Match 方面为 67.43％。

Mar, 2022

一份用于评估机器阅读理解的越南语数据集

本研究为缺乏基准数据集的低资源语言（如越南语）创建了一个新的数据集 UIT-ViQuAD，包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果，结果表明，未来的研究可以提高越南 MRC 的准确度和性能。

Sep, 2020

健康新闻文章机器阅读理解的新越南语语料库

介绍了 ViNewsQA，这是用于越南语的一种新的用于评估医疗领域阅读理解模型的语料库，其中包含 22057 个人工生成的问题 - 答案对和比较人类和不同机器阅读理解方法的性能，其中 ALBERT 模型在该语料库上获得了最好的性能。

Jun, 2020

VlogQA: 越南口语问答的任务、数据集和基线模型

通过捕捉越南母语者在自然环境中的口语表达，这篇论文描述了一个用于机器阅读理解任务的越南口语语料库的开发过程，并提供了使用真实数据进行机器阅读理解任务所面临的挑战和机遇的见解。

Feb, 2024

MMM：多选阅读理解的多阶段多任务学习

本研究提出了一种名为 MMM 的基于多阶段多任务学习框架的多选阅读理解方法，其中采用了一种名为多步注意力网络 (MAN) 的新型分类器。实验证明该方法在四个代表性 MCQA 数据集上显著提高了最新技术水平。

Oct, 2019

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023

VisualMRC：基于文档图片的机器阅读理解

本研究提出了一个名为 VisualMRC 的新的视觉机器阅读理解数据集，包含来自多个网络域的 10,000 多个文档图像，以及 30,000 多个问题和答案对，以帮助发展自然语言理解和生成能力。此外，研究还引入了一个扩展了现有序列到序列模型的新模型，以考虑文档的视觉布局和内容。该模型在自动评估度量方面优于基本序列到序列模型和最先进的 VQA 模型，但其性能仍低于大多数人类表现。该数据集将有助于将视觉和语言理解联系起来的研究。

Jan, 2021

多选阅读理解的多头注意力多任务学习

本文利用多任务学习在两种多项选择阅读理解任务（RACE 和 DREAM）上实现了新的 DREAM 任务的最新性能，其中运用了基于 Transformer 的模型，通过在上下文和问题 - 答案之间添加额外的多头注意力层来 fine-tune 模型。

Feb, 2020

首届中文机器阅读理解评测数据集

本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解，并且是人工验证和隐藏测试集的大规模训练数据。同时，还举办了首届中文机器阅读理解评估（CMRC-2017），成功吸引了数十名参与者。

Sep, 2017