SASS：面向主题感知的句子简化数据和方法

Mar, 2023

SASS：面向主题感知的句子简化数据和方法

SASS: Data and Methods for Subject Aware Sentence Simplification

Brad Windsor, Luke Martin, Anand Tyagi

TL;DR本文提供了一个数据集，旨在训练旨在执行主题感知句子简化而不是整体简化的模型，测试使用摘要归纳中使用的模型架构。结果显示，数据增强，数据遮蔽和摘要中使用的模型架构对主题感知简化提供了可靠的基线比较。

Abstract

sentence simplification tends to focus on the generic simplification of sentences by making them more readable and easier to understand. This paper provides a dataset aimed at training models that perform subject

sentence simplification subject aware sentence simplifications dataset model architecture data-augmentation

发现论文，激发创造

利用摘要数据帮助文本简化

本文针对文本简化数据的缺乏问题，提出了使用文本摘要中的数据辅助文本简化的方法（Sum4Simp），并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。

Feb, 2023

汉语句子简化的新数据集和实证研究

这篇文章介绍了 CSS，一种新的用于评估中文简化句子的数据集，测试了几种无监督和零 / 少样本学习方法，并探讨了大型语言模型是否能够作为高质量的中文简化句子系统。

Jun, 2023

文档级文本简化：数据集，标准和基线

本文提出并研究了一个新的文档级简化任务，旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia，并对其进行分析和人类评估，提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务，并选择了几个代表基准模型进行自动和人类评估并分析了结果，指出了基准模型的缺点。

Oct, 2021

ASSET: 多重改写转换的句子简化模型调整与评估数据集

这篇论文介绍了 ASSET 数据集，用于评估句子简化，并展示它相对于其他标准评估数据集的优越性，同时指出现有评估模型可能不够适合使用多重简化转换。

May, 2020

可控的句子简化

使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法，进而在简化基准测试中实现比标准模型更好的结果，并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。

Oct, 2019

通过数据综合，增强和课程来缓解抽象摘要中的数据匮乏

通过数据合成、数据增强、课程学习等方法，不需要额外的数据，即可改善抽象摘要模型的性能。研究表明，采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外，当分别应用和组合使用这些技术时，它们都可以提高性能。

Sep, 2021

学习将句子改写为不同复杂程度

本论文研究句子简化，提出了两个新的无监督数据集用于训练模型，并通过多任务和提示策略在大语言模型下进行实验，取得了最新的性能成果。

Aug, 2023

基于理解问答的文本简化

本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性，创建了被简化过的 SQuAD 数据集 (Simple-SQuAD)，并实验表明文本简化对于基于 SQuAD 的问答任务，确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。

Sep, 2021

基于摘要生成的数据增强方法用于文档分类

通过使用 SUMMaug，一种简单但有效的基于摘要的数据增强方法，我们能够解决预训练语言模型在理解长文本（如文档）时遇到的数据稀疏问题，并在文档分类任务中取得了稳健性和准确性上的优势。

Dec, 2023

SDA: 简单离散增强方法用于对比句子表示学习

本文提出三种离散级别的语句数据增强方法（标点符号插入、肯定助动词和双重否定），以实现语义一致性和表达多样性的平衡，从而取得了良好的效果，并在英文和中文语义文本相似性数据集上进行了广泛的实验。

Oct, 2022