用于文本摘要的印度语言数据集概述
本文介绍了IndoSum,一个新的印度尼西亚文本摘要基准数据集,采用新闻文章和手动构建的摘要,该数据集是先前相同领域的数据集的近200倍,使用各种抽取式摘要方法进行了评估,获得了令人鼓舞的结果,为未来研究提供了基准。
Oct, 2018
该研究介绍了一份名为“XL-Sum”的全面而多样化的数据集,其中包含来自44种语言的100万篇新闻文章及其摘要,旨在支持跨语言抽象文本摘要的未来研究工作,且在许多语言上可实现尤其高的ROUGE-2分数。
Jun, 2021
本文介绍了使用不同的预训练seq2seq模型在ILSUM 2022数据集上微调的结果,其中使用 PEGASUS 模型得到了最佳的英文结果,使用具有增强数据的IndicBART模型得到了最佳的印地语结果,并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了PEGASUS模型,使用ROUGE-1、ROUGE-2和ROUGE-4作为评估度量方法进行了推理成果的评估。
Dec, 2022
LR-Sum是一个使用创意共享许可证创建的包含40种语言的分别用于多语言新闻概要的数据集,旨在促进对低资源语言自动概括的进一步研究。本文描述了从Multilingual Open Text语料库中提取和筛选出该数据集的过程,同时讨论了该数据集的限制和用途。
Dec, 2022
本研究评估了德语抽象文本摘要的特定现状,并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统,并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外,我们发现现有的系统经常不能与简单的基准线进行比较,并且忽略了更有效和高效的摘要方法。
Jan, 2023
本研究主要关注以预训练序列到序列模型为基础进行文本摘要的任务,研究内容涉及英语、印地语和古吉拉特语。我们尝试了多种模型,对不同模型在三个子任务上的效果进行了对比,同时对数据大小和过滤对模型效果的影响进行了分析。研究发现在有限的数据大小下,k折交叉验证可以显著提高模型效果。
Mar, 2023
本研究采用IndicBART和mT5模型,研究它们在印度语言数据集上的摘要性能,结果以ROUGE-1、ROUGE-2、ROUGE-3和ROUGE-4分数为性能指标。
Mar, 2023
利用自注意力变换器模型(mBERT, mT5)以及构建新的基准数据集(76.5k的文章摘要对),在资源有限的语言乌尔都语中,提出了一个自适应低资源摘要方法,能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。
Oct, 2023
这篇研究论文使用了各种不同的大型语言模型,包括MPT-7b-instruct,falcon-7b-instruct和OpenAI ChatGPT text-davinci-003模型,通过不同的超参数对生成的摘要进行评估,并发现text-davinci-003模型的表现优于其他模型。该研究还分析了CNN Daily Mail和XSum两个不同的数据集,旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对NLP领域的研究人员和从业者提供了有价值的见解,同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。
Oct, 2023
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了28583个单语和跨语种的文章-摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023