本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性,创建了被简化过的 SQuAD 数据集 (Simple-SQuAD),并实验表明文本简化对于基于 SQuAD 的问答任务,确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。
Sep, 2021
本文提出并研究了一个新的文档级简化任务,旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia,并对其进行分析和人类评估,提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务,并选择了几个代表基准模型进行自动和人类评估并分析了结果,指出了基准模型的缺点。
Oct, 2021
本研究提出了一种联合文本简化和摘要生成的方案,为此创建了一个新的数据集,并提供代码和数据以支持该方案的实现。
Jan, 2022
本文介绍了一种基于语义相关性的神经模型,用于促进文本摘要和语言简化的源文本和简化文本之间高度的语义相似性。
Oct, 2017
本文提供了一个数据集,旨在训练旨在执行主题感知句子简化而不是整体简化的模型,测试使用摘要归纳中使用的模型架构。结果显示,数据增强,数据遮蔽和摘要中使用的模型架构对主题感知简化提供了可靠的基线比较。
Mar, 2023
本研究介绍了一种基于在线知识库的数据集 WikiHow,包含超过 230,000 个文章和摘要对,用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。
Oct, 2018
本文提出了一种基于问题解答的方法,通过将文本视为小型知识库进行大量提问,以精确地比较两个文本之间的内容差异,从而解决 NLP 系统评估中的一个重要问题。实验结果表明,该方法在分析大型文本语料库方面具有较高的准确性和可靠性。
Apr, 2017
使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法,进而在简化基准测试中实现比标准模型更好的结果,并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。
Oct, 2019
通过请高质量合同工人阅读原始文档并写出原始摘要,建立了 SQuALITY 数据集,该数据集的第一篇文章概述了主要内容,其余四篇回答了具体问题,实验证明现有自动摘要评估指标不是优秀的质量指标。
May, 2022
本文介绍了一种新的数据集,用于总结计算机科学出版物,展示了利用神经句子编码和传统的总结功能来开发模型的方式,并表明即使在传统的科学领域中,对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能,并实现了明显优于已经建立的基准方法的结果。
Jun, 2017