小而强大:分裂和改写的新基准
该研究提出了一种新的句子简化任务 ——Split-and-Rephrase,在将复杂句子转换为意思相同的短句子方面有着潜在的价值。该任务可以作为自然语言处理的预处理步骤,可以帮助解析器、语义角色标注器和机器翻译系统提高性能,并对阅读障碍者有帮助。该研究提出了五种模型来应对这一任务。
Jul, 2017
使用大型语言模型,通过训练样本和模型参数的相对较小数量,显著改进了 Split and Rephrase 任务的性能,并证明了大语言模型在该任务中的潜力。
Dec, 2023
通过挖掘 Wikipedia 的编辑历史,我们提取了一个丰富的新数据集 WikiSplit,其中包含一百万个自然生成的句子重写,提供了比 Narayan 等人(2017)引入的 WebSplit 语料库更多的六十倍的不同分裂示例和九十倍的词汇量,将 WikiSplit 作为训练数据可以产生质量更好的模型,其预测结果在 WebSplit 基准测试中比之前的最佳结果高出 32 BLEU 点。
Aug, 2018
将复杂句子拆分为意思相同的多个简单句子的 Split and Rephrase 任务通过提升可读性和提高自然语言处理中下游任务的性能。本文提出了一种简单而强大的数据精炼方法,通过删除 WikiSplit 中复杂句子不涉及至少一个简单句子的实例并颠倒参考简单句子的顺序来创建 WikiSplit++,实验结果表明,使用 WikiSplit++ 进行训练比使用 WikiSplit 获得更好的性能,即使训练实例更少。特别是,我们的方法在拆分数和暇想度量中(即获得更多拆分和更高的包含关系比例)有显著提升。
Apr, 2024
自动评估长句分割和重述任务的 CEScore 模型提供了用于评估简单性、语法性、意义保持性和整体质量的四个指标(Sscore、Gscore、Mscore 和 CEscore)并与人类评估强相关,表明 CEScore 作为评估 SR 模型整体质量的简单有效指标的潜力。
Dec, 2023
介绍了一个新的训练集 BiSECT 和针对 split and rephrase 任务的新模型。利用机器翻译从双语平行语料中提取长英语句子并与相应的较短、意思等效的英语句子配对。该模型针对输入句子中的特定区域进行分割和编辑,并利用训练集 BiSECT 在自动和人为评估中提高了先前 Split 和 Rephrase 模型的性能。
Sep, 2021
该研究文献介绍了一个新的句子分割语料库,其中包括 203K 个对齐的复杂源语句和简化目标语句。该语料库有利于开发将具有复杂语言结构的句子转化为简单结构的方法,以利于其下游应用的处理和提高性能。
Sep, 2019
介绍了 LexBench,这是一套全面评估套件,用于测试语言模型在十个语义短语处理任务上的性能。通过实验,验证了模型尺寸与任务性能之间的关系,进一步研究了少样本学习在语义关系分类方面的差距,并且发现强模型在语义短语处理上的性能与人类水平相当。
May, 2024