使用多语言变压器模型对印度语言进行摘要

Mar, 2023

使用多语言变压器模型对印度语言进行摘要

Summarizing Indian Languages using Multilingual Transformers based Models

PDF

Dhaval Taunk, Vasudeva Varma

TL;DR本研究采用 IndicBART 和 mT5 模型，研究它们在印度语言数据集上的摘要性能，结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。

Abstract

With the advent of multilingual models like mbart, mt5, indicbart

multilingual models mbart mt5 indicbart indian languages

发现论文，激发创造

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

Indic-Transformers: 基于 Transformer 模型的印度语言模型分析

该研究通过对 Hindi、Bengali 和 Telugu 语言进行广泛实验，评估了基于 Transformer 架构的语言模型在印度语言上的性能，发现 Fine-tuning 预训练模型参数比从头训练语言模型更有效，而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终，在文本分类任务中实现了 Hindi 和 Bengali 语言的最新技术水平，并提出了处理印度语言建模问题的有效策略。

Nov, 2020

马拉地语中仇恨言论检测和文本分类的单语和多语 BERT 案例研究

在本文中，我们使用 Marathi 语言的标准多语言模型和单语模型比较分析，通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时，我们还评估了来自这些模型的句子嵌入。

Apr, 2022

使用预训练序列到序列模型进行印度语文摘要

本研究主要关注以预训练序列到序列模型为基础进行文本摘要的任务，研究内容涉及英语、印地语和古吉拉特语。我们尝试了多种模型，对不同模型在三个子任务上的效果进行了对比，同时对数据大小和过滤对模型效果的影响进行了分析。研究发现在有限的数据大小下，k 折交叉验证可以显著提高模型效果。

Mar, 2023

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

IndicBART：用于 Indic 自然语言生成的预训练模型

本文探讨了预训练的序列到序列模型在相关语言群中的应用，关注印欧语言。我们介绍了 IndicBART - 一种针对 11 种印欧语言和英语的多语言序列到序列预训练模型。通过利用印欧语言之间的拼写相似性，IndicBART 在类似印欧语言之间进行转移学习，获得了不错的性能表现。研究表明，即使相对较小的 IndicBART 模型在机器翻译和极端摘要等任务上也具有与大型预训练模型相媲美的性能，甚至在很低资源的情况下依然表现优异。模型参数共享，多语言训练等技术有助于提高 IndicBART 模型的性能水平。

Sep, 2021

低资源印度语言马拉地问题回答的深度学习

使用不同的 Transformer 模型，我们创建了一个基于阅读理解的马拉提语问答系统，并在马拉提语阅读理解数据集上通过对 MuRIL 多语言模型进行微调，获得了最佳准确性，EM 得分为 0.64，F1 得分为 0.74。

Sep, 2023

教育中的 Transformer 模型：用 AraBART、MT5、AraT5 和 mBART 概括科学教材

基于现代自然语言处理模型，该研究提出了一种针对阿拉伯文教科书的文本摘要系统，通过评估和提取巴勒斯坦课程中 11 年级和 12 年级生物教科书中最重要的句子，为学生和教师提供了准确有用的摘要，旨在解决阿拉伯文文本摘要的需求，并丰富了该领域的研究与发展。

Jun, 2024

PMIndiaSum: 面向印度的多语和跨语言头条摘要

本文介绍了 PMIndiaSum，一个针对印度语言的多语言和大规模并行的标题摘要语料库，并为单语、跨语言和多语言摘要提供了基准和数据测试。

May, 2023