MinWikiSplit:一个最小命题的句子分割语料库
在语义上意识到文本中的句子结构和上下文联系,通过将复杂句子进行拆分和重新表述,生成有语义层次的简化句子,以提高自然语言处理应用的预测质量。
Aug, 2023
该研究提出了一种新的句子简化任务 ——Split-and-Rephrase,在将复杂句子转换为意思相同的短句子方面有着潜在的价值。该任务可以作为自然语言处理的预处理步骤,可以帮助解析器、语义角色标注器和机器翻译系统提高性能,并对阅读障碍者有帮助。该研究提出了五种模型来应对这一任务。
Jul, 2017
本研究提出了一种新颖的句子简化方法,使用基于语义的方法进行句子拆分,不需要手动编写规则或训练语料库,研究表明这个无监督框架与四个最先进的监督系统竞争力相当,并且我们提出的基于语义的方法能够有效地处理句子拆分。
Jul, 2015
本文介绍了通过单语和平行语料库学习分割规则的方法,对机器翻译等 NLP 应用中的复合词进行处理,评估结果表明,在德英名词短语翻译任务中,可以获得 99.1% 的准确性和 0.039 BLEU 的性能提升。
Feb, 2003
本论文提出了一种基于自动语义分析器的简单有效的句子分割算法,并通过神经机器翻译进行进一步微调的简化操作,其中采用语义分析为基础的分割方式可以有效地解决以往机器翻译的过于保守的问题,经过广泛的自动化和人工评估,该方法在词汇和结构简化方面表现优异。
Oct, 2018
将复杂句子拆分为意思相同的多个简单句子的 Split and Rephrase 任务通过提升可读性和提高自然语言处理中下游任务的性能。本文提出了一种简单而强大的数据精炼方法,通过删除 WikiSplit 中复杂句子不涉及至少一个简单句子的实例并颠倒参考简单句子的顺序来创建 WikiSplit++,实验结果表明,使用 WikiSplit++ 进行训练比使用 WikiSplit 获得更好的性能,即使训练实例更少。特别是,我们的方法在拆分数和暇想度量中(即获得更多拆分和更高的包含关系比例)有显著提升。
Apr, 2024
通过挖掘 Wikipedia 的编辑历史,我们提取了一个丰富的新数据集 WikiSplit,其中包含一百万个自然生成的句子重写,提供了比 Narayan 等人(2017)引入的 WebSplit 语料库更多的六十倍的不同分裂示例和九十倍的词汇量,将 WikiSplit 作为训练数据可以产生质量更好的模型,其预测结果在 WebSplit 基准测试中比之前的最佳结果高出 32 BLEU 点。
Aug, 2018
本文研究了将复杂句子简化为简单句子的文本简化任务,发现常用的基准数据集存在易被利用的语法线索,其自动生成过程中存在的固有偏差使其无法准确评估模型性能。通过收集众包数据,本文构建了更加多样化、接近人工写作的基准数据集,并提出了一套评估标准,初步证明了基于该基准数据集的人工评估更加精准和公正。
Sep, 2020
该研究提出了一种递归分割和重述复杂英语句子的方法,生成简化句子的新语义层级结构,可用于机器翻译或信息提取等人工智能任务,手动和自动评估都表明该方法在结构文本简化方面表现优于现有技术,并用于近似 346% 精度和 52% 召回率地改良现有句子提取系统的性能。
Jun, 2019
本论文提出了 PropSegmEnt,这是一个超过 35K 的已由人类专家标注的命题语料库,用于 NLI 任务中的命题分割和关系分类,证明了这个框架有助于理解和解释 NLI 标签的组合性。
Dec, 2022