自动摘要俄罗斯新闻的数据集
该论文讨论了创建一个俄语科学论文的多模态数据集,并测试了现有的语言模型在自动文本摘要任务上的表现。该数据集的特点是其多模态数据,包括文本、表格和图形。论文介绍了使用 SBER 的 Gigachat 和 Yandex 的 YandexGPT 两个语言模型的实验结果。数据集包含 420 篇论文,可在此 https URL 上公开获取。
May, 2024
本文研究使用翻译的微文本、劝说性文章和 UKP 句子语料库的版本来微调 RuBERT 模型,然后使用此模型对经济新闻语料库进行注释,进而微调 ruGPT-3 模型,生成论证文本,并证明这种方法可以使论证生成的准确性提高超过 20 个百分点(63.2%与 42.5%相比)
Jun, 2022
本研究论文针对新闻文本自动摘要的抽取和生成方法进行了广泛的比较评估,重点分析了 ROUGE 分数。研究使用 CNN-Daily Mail 数据集,包括新闻文章和人工生成的参考摘要。通过 ROUGE 分数评估生成摘要的效果和质量,再将表现最佳的模型整合到 Web 应用程序中,评估其在真实世界中的能力和用户体验。
Oct, 2023
训练摘要模型需要大量的训练数据。然而,对于像匈牙利语这样资源有限的语言,公开可用的模型和数据集明显稀缺。为了填补这个空白,我们的论文介绍了 HunSum-2,这是一个开源的匈牙利语语料库,适用于训练抽象和提取式摘要模型。该数据集经过了详细的清洗、预处理和去重。除了抽象摘要外,我们还使用句子相似度生成句子级标签,用于提取式摘要。我们使用收集到的数据集训练了提取式和抽象式摘要的基线模型。为了证明训练模型的有效性,我们进行了定量和定性评估。我们的数据集、模型和代码都是公开可用的,鼓励复制、进一步研究以及在各个领域进行实际应用。
Apr, 2024
本研究评估了德语抽象文本摘要的特定现状,并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统,并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外,我们发现现有的系统经常不能与简单的基准线进行比较,并且忽略了更有效和高效的摘要方法。
Jan, 2023
本文介绍了一个大规模印尼文摘要数据集,使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法,并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析,揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。
Nov, 2020
NoticIA 是一项数据集,其中包含 850 篇西班牙新闻文章,配有高质量的单句生成摘要,用于评估大型语言模型对西班牙文本的理解能力,并用于训练 ClickbaitFighter 模型,该模型在这一任务上达到接近人类水平的表现。
Apr, 2024
本文介绍了 IndoSum,一个新的印度尼西亚文本摘要基准数据集,采用新闻文章和手动构建的摘要,该数据集是先前相同领域的数据集的近 200 倍,使用各种抽取式摘要方法进行了评估,获得了令人鼓舞的结果,为未来研究提供了基准。
Oct, 2018
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
Jun, 2023
介绍 HunSum-1: 一个用于匈牙利摘要生成的数据集,包含 114 万条新闻文章;该数据集是通过 CommonCrawl 从 9 个主要的匈牙利新闻网站收集,清理和去重而构建的;使用该数据集,我们基于 huBERT 和 mT5 构建抽象摘要模型,并对模型结果进行了定量和定性分析。
Feb, 2023