混合词语 - 字符方法的自动摘要生成

Feb, 2018

混合词语 - 字符方法的自动摘要生成

A Hybrid Word-Character Approach to Abstractive Summarization

Chieh-Teng Chang, Chi-Chia Huang, Chih-Yuan Yang, Jane Yung-Jen Hsu

TL;DR本文提出了一种混合字词方法（HWC）来进行汉语文本摘要，其性能在 LCSTS 数据集上领先于现有方法，该方法同时保留了基于字和基于词表示的优点。此外，我们发现了 LCSTS 数据集中的问题并提供了一个脚本来创建一个经过清理的数据集。

Abstract

Automatic abstractive text summarization is an important and challenging research topic of natural language processing. Among many widely used languages, the →

abstractive text summarization natural language processing chinese language hybrid word-character approach lcsts dataset

发现论文，激发创造

CLTS+: 一个新的中文长文本摘要数据集，具有生成式摘要

为提高模型的创造能力，该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集（CLTS+），并提出了一种基于共现词的评估该数据集的内在度量方法。

Jun, 2022

文本摘要中的抽象化改进

提出使用上下文相关网络和预训练的语言模型来提高抽象文本摘要的生成水平和使用新颖度度量来优化生成的摘要，从而实现比现有方法更高水平的摘要生成。

Aug, 2018

使用预训练语言模型在低资源环境下进行长文档摘要

本文探讨如何在低资源情况下，使用深度神经网络等技术进行长篇法律文件的自动摘要，本文提出了一种基于 GPT-2 的算法，基于语言模型的困惑度，识别出最具有表现力的句子，在提取摘要时提供有效支持，并且该方法胜过了全球其他对手的显著度检测基线。

Mar, 2021

可控抽象摘要

本文提出了一种神经摘要模型，能够通过简单而有效的机制实现用户对文本长度、风格、感兴趣的实体等高级属性的控制，以生成符合用户需求的高质量摘要，并在 CNN-Dailymail 数据集上优于现有的自动化系统和人工评价。

Nov, 2017

为提高语义一致性，正则化中国社交媒体抽象文本摘要的输出分布

本文探讨了抽象文本摘要中生成内容与原文义不相符的问题，并提出了以正则化为基础的序列到序列模型和实用人工评估方法以解决问题。实验结果表明，该方法在提高人工评估的语义一致性方面比以前的模型有效。

May, 2018

德国（抽象）文本摘要情况

本研究评估了德语抽象文本摘要的特定现状，并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统，并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外，我们发现现有的系统经常不能与简单的基准线进行比较，并且忽略了更有效和高效的摘要方法。

Jan, 2023

LCSTS: 一个大型的中文短文本摘要数据集

本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集，包含超过 200 万条中文短文本和对应的短摘要，并通过该数据集引入了基于递归神经网络的摘要生成方法，取得了良好的效果，该方法不仅显示了所提出数据集在短文本摘要研究中的有用性，也为后续研究提供了基线。

Jun, 2015

X-SCITLDR：学术文献的跨语言极端摘要

本研究填补了前人研究的空白，提出了一个多语种的学术领域摘要数据集，基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型，同时分析了在零样本和少样本情况下训练的性能。

May, 2022

HeSum：一个用于希伯来文抽象文本摘要的新数据集

该论文引入了 HeSum，一个专为现代希伯来语抽象文本摘要而设计的基准测试集，其中包含从专业人士撰写的希伯来语新闻网站中获取的 1 万个文章 - 摘要对。通过语言分析，我们证实了 HeSum 的高度抽象性和独特的形态学挑战。我们展示了 HeSum 对于当代最先进的大型语言模型来说具有明显的困难，从而将其确立为希伯来语的生成语言技术以及 MRL 的生成挑战的有价值的试验平台。

Jun, 2024

聊天记录摘要的混合策略

本文提出了一种本地开发的混合方法，结合抽取和生成式摘要技术，通过强化学习优化聊天转录的 summarization 质量，同时展示了在没有手动生成参考摘要的情况下，该方法在大规模部署聊天转录摘要方面的效果。

Feb, 2024