San-BERT: 使用 BERT 及其变体进行梵文文档的摘要提取

Apr, 2023

San-BERT: 使用 BERT 及其变体进行梵文文档的摘要提取

San-BERT: Extractive Summarization for Sanskrit Documents using BERT and it's variants

Kartik Bhatnagar, Sampath Lonka, Jammi Kunal, Mahabala Rao M G

TL;DR研究人员使用 Sanskrit 语文本语料库开发了 Sanskrit 语言模型 BERT、ALBERT 和 RoBERTa，并从中提取特征，应用维度降低和聚类技术生成了给定文本的摘要，并公开了一个 Sanskrit Devanagari 文本语料库。

Abstract

In this work, we develop language models for the sanskrit language, namely Bidirectional Encoder Representations from Transformers (bert) and its variants: A Lite →

sanskrit language bert albert roberta text summarization

发现论文，激发创造

微调 BERT 用于抽取式摘要

本文提出了 BERTSUM，即 BERT 的摘要变体，通过在 CNN / Dailymail 数据集上的评估证明其在提取性摘要方面超越了现有的最佳系统。

Mar, 2019

使用预训练编码器进行文本摘要

本研究展示了 BERT 如何在文本摘要中有用地应用，并提出了一种通用的框架，包括抽取式模型和生成式模型。在此框架下，我们引入了一种新的基于 BERT 的文档级编码器，该编码器能够表达文档的语义并获取其句子的表示，通过堆叠多个 Transformer 层来构建我们的抽取式模型，对于生成式摘要，我们提出一种新的微调策略，以解决编码器和解码器之间的不匹配问题，并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明，我们的模型不仅在抽取式设置下，在生成式设置下也达到了最先进的水平。

Aug, 2019

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

使用多语言变压器模型对印度语言进行摘要

本研究采用 IndicBART 和 mT5 模型，研究它们在印度语言数据集上的摘要性能，结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。

Mar, 2023

利用 BERT 进行讲座文本抽取式摘要

本篇论文介绍了使用 Python 的 RESTful 服务 Lecture Summarization Service，利用 BERT 模型和 KMeans 聚类算法对课程内容进行自动摘要，以提供学生便捷的学习方式。该方法虽然有待进一步改进，但是已经取得了令人满意的效果。

Jun, 2019

L3Cube-MahaSBERT 和 HindSBERT：用于印地语和马拉地语的句子 BERT 模型和评估 BERT 句子表示的基准

本文介绍了使用合成的 NLI 和 STS 数据集，针对印地语和马拉地语这两种低资源语言，使用 NLI 预训练和 STSb 微调策略训练生成的高性能 Sentence-BERT 模型，并在下游文本分类和相似性任务中进行了评估。同时，提出了基于不同模型的句子嵌入的比较分析，并释放了 L3Cube-MahaSBERT 和 HindSBERT。

Nov, 2022

L3Cube-HindBERT 和 DevBERT：针对基于天城文的印地语和马拉提语的预训练 BERT Transformer 模型

通过 Hindi BERT 和 Devanagari BERT 模型，我们实现了 Hindi 和 Marathi 文本分类和实体识别任务的重大改进，并在其基础上为其他 Indic 语言发布了单语 BERT 模型。

Nov, 2022

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k 的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

排名：通过基于排名的方法增强孟加拉文本摘要

本文旨在通过利用基于排名的方法，比较四种不同的预训练孟加拉文本摘要模型的输出，从而识别给定文本的最准确和最有信息量的摘要，并使用标准自然语言生成指标来评估生成的摘要的有效性，结果表明通过利用每个预训练转换器模型的优势并结合它们，我们的方法显著提高了孟加拉文本摘要的准确性和有效性。

Jul, 2023

马拉地语中仇恨言论检测和文本分类的单语和多语 BERT 案例研究

在本文中，我们使用 Marathi 语言的标准多语言模型和单语模型比较分析，通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时，我们还评估了来自这些模型的句子嵌入。

Apr, 2022