利用摘要数据帮助文本简化

ACLFeb, 2023

Exploiting Summarization Data to Help Text Simplification

Renliang Sun, Zhixian Yang, Xiaojun Wan

TL;DR本文针对文本简化数据的缺乏问题，提出了使用文本摘要中的数据辅助文本简化的方法（Sum4Simp），并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。

Abstract

One of the major problems with text simplification is the lack of high-quality data. The sources of simplification datasets are limited to Wikipedia and Newsela, restricting further development of this field. In

text simplification data summarization alignment algorithm low-resource scenarios

发现论文，激发创造

基于理解问答的文本简化

本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性，创建了被简化过的 SQuAD 数据集 (Simple-SQuAD)，并实验表明文本简化对于基于 SQuAD 的问答任务，确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。

Sep, 2021

文档级文本简化：数据集，标准和基线

本文提出并研究了一个新的文档级简化任务，旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia，并对其进行分析和人类评估，提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务，并选择了几个代表基准模型进行自动和人类评估并分析了结果，指出了基准模型的缺点。

Oct, 2021

Klexikon：一个用于联合总结和简化的德语数据集

本研究提出了一种联合文本简化和摘要生成的方案，为此创建了一个新的数据集，并提供代码和数据以支持该方案的实现。

Jan, 2022

基于语义相关性的神经网络文本摘要与简化

本文介绍了一种基于语义相关性的神经模型，用于促进文本摘要和语言简化的源文本和简化文本之间高度的语义相似性。

Oct, 2017

SASS：面向主题感知的句子简化数据和方法

本文提供了一个数据集，旨在训练旨在执行主题感知句子简化而不是整体简化的模型，测试使用摘要归纳中使用的模型架构。结果显示，数据增强，数据遮蔽和摘要中使用的模型架构对主题感知简化提供了可靠的基线比较。

Mar, 2023

WikiHow：一个大规模的文本摘要数据集

本研究介绍了一种基于在线知识库的数据集 WikiHow，包含超过 230,000 个文章和摘要对，用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。

Oct, 2018

一种基于语义问答的文本摘要评估方法

本文提出了一种基于问题解答的方法，通过将文本视为小型知识库进行大量提问，以精确地比较两个文本之间的内容差异，从而解决 NLP 系统评估中的一个重要问题。实验结果表明，该方法在分析大型文本语料库方面具有较高的准确性和可靠性。

Apr, 2017

可控的句子简化

使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法，进而在简化基准测试中实现比标准模型更好的结果，并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。

Oct, 2019

SQuALITY: 用较困难的方式构建长文摘要数据集

通过请高质量合同工人阅读原始文档并写出原始摘要，建立了 SQuALITY 数据集，该数据集的第一篇文章概述了主要内容，其余四篇回答了具体问题，实验证明现有自动摘要评估指标不是优秀的质量指标。

May, 2022

科学论文摘要的监督式提取方法

本文介绍了一种新的数据集，用于总结计算机科学出版物，展示了利用神经句子编码和传统的总结功能来开发模型的方式，并表明即使在传统的科学领域中，对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能，并实现了明显优于已经建立的基准方法的结果。

Jun, 2017