混合词语 - 字符方法的自动摘要生成
为提高模型的创造能力,该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集(CLTS+),并提出了一种基于共现词的评估该数据集的内在度量方法。
Jun, 2022
本文探讨如何在低资源情况下,使用深度神经网络等技术进行长篇法律文件的自动摘要,本文提出了一种基于 GPT-2 的算法,基于语言模型的困惑度,识别出最具有表现力的句子,在提取摘要时提供有效支持,并且该方法胜过了全球其他对手的显著度检测基线。
Mar, 2021
本文提出了一种神经摘要模型,能够通过简单而有效的机制实现用户对文本长度、风格、感兴趣的实体等高级属性的控制,以生成符合用户需求的高质量摘要,并在 CNN-Dailymail 数据集上优于现有的自动化系统和人工评价。
Nov, 2017
本文探讨了抽象文本摘要中生成内容与原文义不相符的问题,并提出了以正则化为基础的序列到序列模型和实用人工评估方法以解决问题。实验结果表明,该方法在提高人工评估的语义一致性方面比以前的模型有效。
May, 2018
本研究评估了德语抽象文本摘要的特定现状,并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统,并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外,我们发现现有的系统经常不能与简单的基准线进行比较,并且忽略了更有效和高效的摘要方法。
Jan, 2023
本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集,包含超过 200 万条中文短文本和对应的短摘要,并通过该数据集引入了基于递归神经网络的摘要生成方法,取得了良好的效果,该方法不仅显示了所提出数据集在短文本摘要研究中的有用性,也为后续研究提供了基线。
Jun, 2015
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
该论文引入了 HeSum,一个专为现代希伯来语抽象文本摘要而设计的基准测试集,其中包含从专业人士撰写的希伯来语新闻网站中获取的 1 万个文章 - 摘要对。通过语言分析,我们证实了 HeSum 的高度抽象性和独特的形态学挑战。我们展示了 HeSum 对于当代最先进的大型语言模型来说具有明显的困难,从而将其确立为希伯来语的生成语言技术以及 MRL 的生成挑战的有价值的试验平台。
Jun, 2024
本文提出了一种本地开发的混合方法,结合抽取和生成式摘要技术,通过强化学习优化聊天转录的 summarization 质量,同时展示了在没有手动生成参考摘要的情况下,该方法在大规模部署聊天转录摘要方面的效果。
Feb, 2024