本文主要探讨了目前单文档自动摘要所采用的句子提取和基于词袋模型的标题生成算法的不足,并提出了一种基于词语和短语对齐技术的自动化摘要算法。通过实验结果表明,该模型能够在 <文档,摘要> 数据集中可靠地识别单词和短语的对齐。
Jul, 2009
提出了一种通过在线学习指南的摘要 / 章节对生成小说章节摘要的新任务,重点是提取性摘要和对齐方法,通过创建出金标准提取性摘要句子以及实验不同的对齐方法,从而在自动指标等方面得出我们的任务比原先方法有了显著的改进,通过众包金字塔分析。
May, 2020
本文提出了使用会议摘要生成自动转录报告的方法。使用自动预对齐方法使数据批量化对齐,最大化语料库的规模,以及使用人工标注者进行更准确地校对。作者还评估了自动对齐和自动摘要的表现,并证明自动对齐可大幅度提高所有 ROUGE 得分。
Jul, 2020
本文介绍利用机器学习方法,在小部分任务中辅助人类反馈来逐步完成整个任务, 并用所收集的大量数据 fine-tune GPT-3 模型,将其应用于整本小说的抽象式摘要,最后得到了可以在几个案例中与人类摘要匹配的,甚至匹配人类摘要质量的总结。
Sep, 2021
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
该论文提出了一种以监督分类的方式在更准确的命题跨度级别进行摘要 - 源文本对齐的方法,并利用众包数据构建了一个新的训练数据集,表明该方法在句子对齐质量方面的效果优于无监督方法。
Sep, 2020
论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法,采用层级文档编码器和基于注意力机制的提取器的通用框架,能够训练不同的摘要模型(提取句子或单词),在大规模语料库上进行实验结果表明,该方法在不需要语言注解的情况下取得了与现有技术相当的效果。
Mar, 2016
本文提出了一种对比学习模型,用于文本摘要的有监督抽象,通过将文档、其黄金摘要和模型生成的摘要视为同一平均表示的不同视图,并在训练过程中最大化它们之间的相似性,从而改进了强序列到序列的文本生成模型(即 BART)。人类评估也显示,我们的模型与没有对比目标的对应模型相比,实现了更好的忠实度评分。
使用可比较语料库中的句子进行多序列匹配从而自动学习和应用单词格点对表示的改写模式,实现文本的生成和改写。实验结果表明系统可以准确地生成和改写文本并优于基线系统。
Apr, 2003
文章旨在利用基于 Transformer 的技术提高文章章节摘要的生成效率和质量。
Jan, 2023