汉语句子简化的新数据集和实证研究

ACLJun, 2023

汉语句子简化的新数据集和实证研究

A New Dataset and Empirical Study for Sentence Simplification in Chinese

Shiping Yang, Renliang Sun, Xiaojun Wan

TL;DR这篇文章介绍了 CSS，一种新的用于评估中文简化句子的数据集，测试了几种无监督和零 / 少样本学习方法，并探讨了大型语言模型是否能够作为高质量的中文简化句子系统。

Abstract

sentence simplification is a valuable technique that can benefit language learners and children a lot. However, current research focuses more on English sentence simplification. The development of →

sentence simplification chinese dataset unsupervised learning large language models

发现论文，激发创造

SASS：面向主题感知的句子简化数据和方法

本文提供了一个数据集，旨在训练旨在执行主题感知句子简化而不是整体简化的模型，测试使用摘要归纳中使用的模型架构。结果显示，数据增强，数据遮蔽和摘要中使用的模型架构对主题感知简化提供了可靠的基线比较。

Mar, 2023

文档级文本简化：数据集，标准和基线

本文提出并研究了一个新的文档级简化任务，旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia，并对其进行分析和人类评估，提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务，并选择了几个代表基准模型进行自动和人类评估并分析了结果，指出了基准模型的缺点。

Oct, 2021

MCTS：一份多参考的中文文本简化数据集

该论文介绍了一种多参考中文文本简化数据集 (MCTS)，并对一些无监督方法和先进的大型语言模型的性能进行了评估，以期通过基础工作建立对中文文本简化的基本理解，并为未来的研究提供参考。

Jun, 2023

基于大型语言模型的句子简化

本文使用零 / 少量数据训练的大型语言模型在众多基准测试集上进行了实验分析，结果表明 LLMs 优于最先进的句子简化方法，并被评为与人类标注者一致。

Feb, 2023

CSL：一个大规模的中文科技文献数据集

本研究介绍了 CSL，一个包含 39.6 万篇中国科技文献的大型数据集，为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时，本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现，如摘要生成、关键词提取和文本分类，并分析已有 NLP 模型在这些任务上的表现，揭示了进行中文科技 NLP 任务所面临的挑战。

Sep, 2022

一种用于句子简化的受限序列到序列神经模型

通过结合单词级和句子级的简化方法，本研究提出了一个两步简化框架，并利用约束神经生成模型的方法对简化后的单词进行句子简化，取得了比各种基线模型更好的性能表现。

Apr, 2017

学习将句子改写为不同复杂程度

本论文研究句子简化，提出了两个新的无监督数据集用于训练模型，并通过多任务和提示策略在大语言模型下进行实验，取得了最新的性能成果。

Aug, 2023

利用摘要数据帮助文本简化

本文针对文本简化数据的缺乏问题，提出了使用文本摘要中的数据辅助文本简化的方法（Sum4Simp），并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。

Feb, 2023

ASSET: 多重改写转换的句子简化模型调整与评估数据集

这篇论文介绍了 ASSET 数据集，用于评估句子简化，并展示它相对于其他标准评估数据集的优越性，同时指出现有评估模型可能不够适合使用多重简化转换。

May, 2020

CSS: 一个大规模跨模式中文文本到 SQL 的医疗数据集

本文介绍了交叉架构文本到 SQL 任务，并提出了 CrosS-Schema 中文文本到 SQL 数据集，用于研究不同医疗系统中的 SQL 查询生成。数据集扩展到 19 个数据库，29,280 个数据样本，经过基准测试并公开共享。

May, 2023