划分越少越好：解构句子划分中的可读性

Feb, 2023

划分越少越好：解构句子划分中的可读性

The Fewer Splits are Better: Deconstructing Readability in Sentence Splitting

Tadashi Nomoto

TL;DR这篇论文主要研究句子拆分在文本简化中的应用，通过引入贝叶斯模型框架和 Amazon Mechanical Turk 的实验数据得出，将一句复杂的长句拆成两句可以更好地提高阅读可读性。

Abstract

In this work, we focus on sentence splitting, a subfield of text simplification, motivated largely by an unproven idea that if you divide a sentence in pieces, it should become easier to understand. Our primary goal in this paper is to find out whether this is true. In particular, we a

sentence splitting text simplification readability bayesian modeling amazon mechanical turk

发现论文，激发创造

分离和改述

该研究提出了一种新的句子简化任务 ——Split-and-Rephrase，在将复杂句子转换为意思相同的短句子方面有着潜在的价值。该任务可以作为自然语言处理的预处理步骤，可以帮助解析器、语义角色标注器和机器翻译系统提高性能，并对阅读障碍者有帮助。该研究提出了五种模型来应对这一任务。

Jul, 2017

利用语义和神经方法实现简单有效的文本简化

本论文提出了一种基于自动语义分析器的简单有效的句子分割算法，并通过神经机器翻译进行进一步微调的简化操作，其中采用语义分析为基础的分割方式可以有效地解决以往机器翻译的过于保守的问题，经过广泛的自动化和人工评估，该方法在词汇和结构简化方面表现优异。

Oct, 2018

从维基百科编辑历史中学习拆分和改述技能

通过挖掘 Wikipedia 的编辑历史，我们提取了一个丰富的新数据集 WikiSplit，其中包含一百万个自然生成的句子重写，提供了比 Narayan 等人（2017）引入的 WebSplit 语料库更多的六十倍的不同分裂示例和九十倍的词汇量，将 WikiSplit 作为训练数据可以产生质量更好的模型，其预测结果在 WebSplit 基准测试中比之前的最佳结果高出 32 BLEU 点。

Aug, 2018

小而强大：分裂和改写的新基准

本文研究了将复杂句子简化为简单句子的文本简化任务，发现常用的基准数据集存在易被利用的语法线索，其自动生成过程中存在的固有偏差使其无法准确评估模型性能。通过收集众包数据，本文构建了更加多样化、接近人工写作的基准数据集，并提出了一套评估标准，初步证明了基于该基准数据集的人工评估更加精准和公正。

Sep, 2020

更好的评估和更强的基线

通过增加复制机制的神经网络模型，本研究针对 NLP 中一个有挑战性的问题解决了一个复杂句子分裂及重述的任务，并成功地提高了 8.68 BLEU 的得分。

May, 2018

BiSECT：使用双语文本学习分割和重新表述句子

介绍了一个新的训练集 BiSECT 和针对 split and rephrase 任务的新模型。利用机器翻译从双语平行语料中提取长英语句子并与相应的较短、意思等效的英语句子配对。该模型针对输入句子中的特定区域进行分割和编辑，并利用训练集 BiSECT 在自动和人为评估中提高了先前 Split 和 Rephrase 模型的性能。

Sep, 2021

MinWikiSplit：一个最小命题的句子分割语料库

该研究文献介绍了一个新的句子分割语料库，其中包括 203K 个对齐的复杂源语句和简化目标语句。该语料库有利于开发将具有复杂语言结构的句子转化为简单结构的方法，以利于其下游应用的处理和提高性能。

Sep, 2019

论文标题：论从复杂句子到关联命题的言语感知文本简化

在语义上意识到文本中的句子结构和上下文联系，通过将复杂句子进行拆分和重新表述，生成有语义层次的简化句子，以提高自然语言处理应用的预测质量。

Aug, 2023

针对生物医学文本自动处理的有效句子简化

本文提出了一个名为 bioSimplify 的文本简化方法，试图减少医学文献中的句子复杂度，从而提高句法分析器的性能。经测试，在使用简化后的句子进行分析时，Charniak-McClosky 句法分析器的性能提高了 2.90%，Link Grammar 句法分析器的性能提高了 4.23%。

Jan, 2010

分词对语音翻译性别偏差的影响

本文探讨了中性的分词组件是否会影响到翻译性别，以及某些分词方法是否会惩罚女性语言标记的表示。作者比较了 5 种不同的分词策略，并发现最先进的子单词拆分技术 (BPE) 导致更高的性别偏见。因此，我们提出一种结合字符级分词更好地翻译性别，同时保留 BPE 整体翻译质量的方法。

May, 2021