MinWikiSplit：一个最小命题的句子分割语料库

Sep, 2019

MinWikiSplit：一个最小命题的句子分割语料库

MinWikiSplit: A Sentence Splitting Corpus with Minimal Propositions

Christina Niklaus, Andre Freitas, Siegfried Handschuh

TL;DR该研究文献介绍了一个新的句子分割语料库，其中包括 203K 个对齐的复杂源语句和简化目标语句。该语料库有利于开发将具有复杂语言结构的句子转化为简单结构的方法，以利于其下游应用的处理和提高性能。

Abstract

We compiled a new sentence splitting corpus that is composed of 203K pairs of aligned complex source and simplified target sentences. Contrary to previously proposed →

sentence splitting corpus text simplification linguistic structure downstream applications

发现论文，激发创造

论文标题：论从复杂句子到关联命题的言语感知文本简化

在语义上意识到文本中的句子结构和上下文联系，通过将复杂句子进行拆分和重新表述，生成有语义层次的简化句子，以提高自然语言处理应用的预测质量。

Aug, 2023

分离和改述

该研究提出了一种新的句子简化任务 ——Split-and-Rephrase，在将复杂句子转换为意思相同的短句子方面有着潜在的价值。该任务可以作为自然语言处理的预处理步骤，可以帮助解析器、语义角色标注器和机器翻译系统提高性能，并对阅读障碍者有帮助。该研究提出了五种模型来应对这一任务。

Jul, 2017

基于深度语义学习的非监督句子简化

本研究提出了一种新颖的句子简化方法，使用基于语义的方法进行句子拆分，不需要手动编写规则或训练语料库，研究表明这个无监督框架与四个最先进的监督系统竞争力相当，并且我们提出的基于语义的方法能够有效地处理句子拆分。

Jul, 2015

复合词拆分的经验方法

本文介绍了通过单语和平行语料库学习分割规则的方法，对机器翻译等 NLP 应用中的复合词进行处理，评估结果表明，在德英名词短语翻译任务中，可以获得 99.1％的准确性和 0.039 BLEU 的性能提升。

Feb, 2003

利用语义和神经方法实现简单有效的文本简化

本论文提出了一种基于自动语义分析器的简单有效的句子分割算法，并通过神经机器翻译进行进一步微调的简化操作，其中采用语义分析为基础的分割方式可以有效地解决以往机器翻译的过于保守的问题，经过广泛的自动化和人工评估，该方法在词汇和结构简化方面表现优异。

Oct, 2018

WikiSplit++：简易数据精化工具用于拆分与改述

将复杂句子拆分为意思相同的多个简单句子的 Split and Rephrase 任务通过提升可读性和提高自然语言处理中下游任务的性能。本文提出了一种简单而强大的数据精炼方法，通过删除 WikiSplit 中复杂句子不涉及至少一个简单句子的实例并颠倒参考简单句子的顺序来创建 WikiSplit++，实验结果表明，使用 WikiSplit++ 进行训练比使用 WikiSplit 获得更好的性能，即使训练实例更少。特别是，我们的方法在拆分数和暇想度量中（即获得更多拆分和更高的包含关系比例）有显著提升。

Apr, 2024

从维基百科编辑历史中学习拆分和改述技能

通过挖掘 Wikipedia 的编辑历史，我们提取了一个丰富的新数据集 WikiSplit，其中包含一百万个自然生成的句子重写，提供了比 Narayan 等人（2017）引入的 WebSplit 语料库更多的六十倍的不同分裂示例和九十倍的词汇量，将 WikiSplit 作为训练数据可以产生质量更好的模型，其预测结果在 WebSplit 基准测试中比之前的最佳结果高出 32 BLEU 点。

Aug, 2018

小而强大：分裂和改写的新基准

本文研究了将复杂句子简化为简单句子的文本简化任务，发现常用的基准数据集存在易被利用的语法线索，其自动生成过程中存在的固有偏差使其无法准确评估模型性能。通过收集众包数据，本文构建了更加多样化、接近人工写作的基准数据集，并提出了一套评估标准，初步证明了基于该基准数据集的人工评估更加精准和公正。

Sep, 2020

将复杂句子转换为语义层级

该研究提出了一种递归分割和重述复杂英语句子的方法，生成简化句子的新语义层级结构，可用于机器翻译或信息提取等人工智能任务，手动和自动评估都表明该方法在结构文本简化方面表现优于现有技术，并用于近似 346% 精度和 52% 召回率地改良现有句子提取系统的性能。

Jun, 2019

PropSegmEnt: 一个用于命题级别分割和蕴含识别的大规模语料库

本论文提出了 PropSegmEnt，这是一个超过 35K 的已由人类专家标注的命题语料库，用于 NLI 任务中的命题分割和关系分类，证明了这个框架有助于理解和解释 NLI 标签的组合性。

Dec, 2022