汉语句子简化的新数据集和实证研究
本文提供了一个数据集,旨在训练旨在执行主题感知句子简化而不是整体简化的模型,测试使用摘要归纳中使用的模型架构。结果显示,数据增强,数据遮蔽和摘要中使用的模型架构对主题感知简化提供了可靠的基线比较。
Mar, 2023
本文提出并研究了一个新的文档级简化任务,旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia,并对其进行分析和人类评估,提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务,并选择了几个代表基准模型进行自动和人类评估并分析了结果,指出了基准模型的缺点。
Oct, 2021
该论文介绍了一种多参考中文文本简化数据集 (MCTS),并对一些无监督方法和先进的大型语言模型的性能进行了评估,以期通过基础工作建立对中文文本简化的基本理解,并为未来的研究提供参考。
Jun, 2023
本研究介绍了 CSL,一个包含 39.6 万篇中国科技文献的大型数据集,为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时,本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现,如摘要生成、关键词提取和文本分类,并分析已有 NLP 模型在这些任务上的表现,揭示了进行中文科技 NLP 任务所面临的挑战。
Sep, 2022
通过结合单词级和句子级的简化方法,本研究提出了一个两步简化框架,并利用约束神经生成模型的方法对简化后的单词进行句子简化,取得了比各种基线模型更好的性能表现。
Apr, 2017
本文针对文本简化数据的缺乏问题,提出了使用文本摘要中的数据辅助文本简化的方法(Sum4Simp),并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。
Feb, 2023
这篇论文介绍了 ASSET 数据集,用于评估句子简化,并展示它相对于其他标准评估数据集的优越性,同时指出现有评估模型可能不够适合使用多重简化转换。
May, 2020
本文介绍了交叉架构文本到 SQL 任务,并提出了 CrosS-Schema 中文文本到 SQL 数据集,用于研究不同医疗系统中的 SQL 查询生成。数据集扩展到 19 个数据库,29,280 个数据样本,经过基准测试并公开共享。
May, 2023