使用多语言变压器模型对印度语言进行摘要
本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果,其中使用 PEGASUS 模型得到了最佳的英文结果,使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果,并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型,使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。
Dec, 2022
利用自注意力变换器模型(mBERT, mT5)以及构建新的基准数据集(76.5k 的文章摘要对),在资源有限的语言乌尔都语中,提出了一个自适应低资源摘要方法,能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。
Oct, 2023
该研究通过对 Hindi、Bengali 和 Telugu 语言进行广泛实验,评估了基于 Transformer 架构的语言模型在印度语言上的性能,发现 Fine-tuning 预训练模型参数比从头训练语言模型更有效,而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终,在文本分类任务中实现了 Hindi 和 Bengali 语言的最新技术水平,并提出了处理印度语言建模问题的有效策略。
Nov, 2020
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
Apr, 2022
本研究主要关注以预训练序列到序列模型为基础进行文本摘要的任务,研究内容涉及英语、印地语和古吉拉特语。我们尝试了多种模型,对不同模型在三个子任务上的效果进行了对比,同时对数据大小和过滤对模型效果的影响进行了分析。研究发现在有限的数据大小下,k 折交叉验证可以显著提高模型效果。
Mar, 2023
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本文探讨了预训练的序列到序列模型在相关语言群中的应用,关注印欧语言。我们介绍了 IndicBART - 一种针对 11 种印欧语言和英语的多语言序列到序列预训练模型。通过利用印欧语言之间的拼写相似性,IndicBART 在类似印欧语言之间进行转移学习,获得了不错的性能表现。研究表明,即使相对较小的 IndicBART 模型在机器翻译和极端摘要等任务上也具有与大型预训练模型相媲美的性能,甚至在很低资源的情况下依然表现优异。模型参数共享,多语言训练等技术有助于提高 IndicBART 模型的性能水平。
Sep, 2021
使用不同的 Transformer 模型,我们创建了一个基于阅读理解的马拉提语问答系统,并在马拉提语阅读理解数据集上通过对 MuRIL 多语言模型进行微调,获得了最佳准确性,EM 得分为 0.64,F1 得分为 0.74。
Sep, 2023
基于现代自然语言处理模型,该研究提出了一种针对阿拉伯文教科书的文本摘要系统,通过评估和提取巴勒斯坦课程中 11 年级和 12 年级生物教科书中最重要的句子,为学生和教师提供了准确有用的摘要,旨在解决阿拉伯文文本摘要的需求,并丰富了该领域的研究与发展。
Jun, 2024
本文介绍了 PMIndiaSum,一个针对印度语言的多语言和大规模并行的标题摘要语料库,并为单语、跨语言和多语言摘要提供了基准和数据测试。
May, 2023