本文针对文本简化数据的缺乏问题,提出了使用文本摘要中的数据辅助文本简化的方法(Sum4Simp),并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。
Feb, 2023
这篇文章介绍了 CSS,一种新的用于评估中文简化句子的数据集,测试了几种无监督和零 / 少样本学习方法,并探讨了大型语言模型是否能够作为高质量的中文简化句子系统。
Jun, 2023
本文提出并研究了一个新的文档级简化任务,旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia,并对其进行分析和人类评估,提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务,并选择了几个代表基准模型进行自动和人类评估并分析了结果,指出了基准模型的缺点。
Oct, 2021
这篇论文介绍了 ASSET 数据集,用于评估句子简化,并展示它相对于其他标准评估数据集的优越性,同时指出现有评估模型可能不够适合使用多重简化转换。
May, 2020
使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法,进而在简化基准测试中实现比标准模型更好的结果,并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。
Oct, 2019
通过数据合成、数据增强、课程学习等方法,不需要额外的数据,即可改善抽象摘要模型的性能。研究表明,采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外,当分别应用和组合使用这些技术时,它们都可以提高性能。
Sep, 2021
本论文研究句子简化,提出了两个新的无监督数据集用于训练模型,并通过多任务和提示策略在大语言模型下进行实验,取得了最新的性能成果。
Aug, 2023
本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性,创建了被简化过的 SQuAD 数据集 (Simple-SQuAD),并实验表明文本简化对于基于 SQuAD 的问答任务,确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
Dec, 2023
本文提出三种离散级别的语句数据增强方法(标点符号插入、肯定助动词和双重否定),以实现语义一致性和表达多样性的平衡,从而取得了良好的效果,并在英文和中文语义文本相似性数据集上进行了广泛的实验。
Oct, 2022