面向越南语教育的多项选择阅读理解语料库
本文介绍了利用多个神经网络模型对低资源语言(越南语)中的多项选择机器阅读理解的影响进行的实验,其中使用了六种不同的越南语单词嵌入和 BERT 模型,在 ViMMRC 语料库上的测试集中,BERT 模型的准确率为 61.28%。
Aug, 2020
本文介绍了一个名为 UIT-ViQuAD 2.0 的越南文机器阅读理解数据集,它可以用于评估和研究机器阅读理解任务和相关任务,如问答、问句生成和自然语言推理。该数据集吸引了 77 个团队参与,其中表现最好的三个团队使用基于 Transformer 结构的强大的预训练语言模型 XLM-RoBERTa,其准确率在 F1 得分方面为 77.24%,在 Exact Match 方面为 67.43%。
Mar, 2022
本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现和最佳模型表现的结果,结果表明,未来的研究可以提高越南 MRC 的准确度和性能。
Sep, 2020
介绍了 ViNewsQA,这是用于越南语的一种新的用于评估医疗领域阅读理解模型的语料库,其中包含 22057 个人工生成的问题 - 答案对和比较人类和不同机器阅读理解方法的性能,其中 ALBERT 模型在该语料库上获得了最好的性能。
Jun, 2020
通过捕捉越南母语者在自然环境中的口语表达,这篇论文描述了一个用于机器阅读理解任务的越南口语语料库的开发过程,并提供了使用真实数据进行机器阅读理解任务所面临的挑战和机遇的见解。
Feb, 2024
本研究提出了一种名为 MMM 的基于多阶段多任务学习框架的多选阅读理解方法,其中采用了一种名为多步注意力网络 (MAN) 的新型分类器。实验证明该方法在四个代表性 MCQA 数据集上显著提高了最新技术水平。
Oct, 2019
提出了一种两阶段知识蒸馏方法,通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档,实验结果表明,使用该方法装备的学生模型具有显著的改进,证明了该方法的有效性。
Jul, 2023
本研究提出了一个名为 VisualMRC 的新的视觉机器阅读理解数据集,包含来自多个网络域的 10,000 多个文档图像,以及 30,000 多个问题和答案对,以帮助发展自然语言理解和生成能力。此外,研究还引入了一个扩展了现有序列到序列模型的新模型,以考虑文档的视觉布局和内容。该模型在自动评估度量方面优于基本序列到序列模型和最先进的 VQA 模型,但其性能仍低于大多数人类表现。该数据集将有助于将视觉和语言理解联系起来的研究。
Jan, 2021
本文利用多任务学习在两种多项选择阅读理解任务(RACE 和 DREAM)上实现了新的 DREAM 任务的最新性能,其中运用了基于 Transformer 的模型,通过在上下文和问题 - 答案之间添加额外的多头注意力层来 fine-tune 模型。
Feb, 2020
本文提出了一种新的中文阅读理解数据集 —— 包括选择题和用户问题阅读理解,并且是人工验证和隐藏测试集的大规模训练数据。同时,还举办了首届中文机器阅读理解评估(CMRC-2017),成功吸引了数十名参与者。
Sep, 2017