科学文献的极端概括
本文提出了一种从引文文本中自动提取科学论文 TLDR 摘要的简单有效方法,并基于此提出了一个新的基准数据集 CiteSum,该数据集比之前的人工筛选的数据集 SciTLDR 大约 30 倍,使用此数据集进行训练的模型在少量样例下即可取得明显提升的效果。
May, 2022
本文介绍了 TLDR9 +—— 一个从 Reddit 讨论论坛中提取的包含 900 万多个训练实例的大规模摘要数据集,旨在进行极端摘要,并通过人工注释蒸馏出更细粒度的 TLDRHQ 数据集,进一步点出我们所提出的数据集上不同的最先进的摘要模型。
Oct, 2021
本文提供了 mTLDR 数据集和 mTLDRgen 模型,用于实现基于多种输入模态的极端抽象文本摘要。该模型使用双重融合的超复杂 Transformer 和 Wasserstein-Riemann 编码器 Transformer 来在超复杂的潜在几何空间中捕捉不同模态的复杂性,并在 Rouge 衡量标准和人类评估方面优于 20 个 baseline 模型和另一个非科学数据集(How2)
Jun, 2023
该论文介绍了针对临床试验的自然语言推理(NLI4CT)任务的新方法。我们提出了 TLDR(利用 T5 生成的临床语言摘要进行 DeBERTa 报告分析),其结合了 T5 模型生成的前提摘要,以改进临床 NLI 任务中的蕴涵和矛盾分析。这种方法克服了窗口较小和前提较长带来的挑战,显著提高了宏观 F1 得分:比截断前提提高了 0.184。我们的全面实验评估,包括详细的错误分析和消融实验,证实了 TLDR 在预测一致性和忠实度方面对语义变化输入的优越性。
Apr, 2024
提供了 TL;DR Progress 工具,用于研究神经文本摘要的文献。该工具通过一个综合的注释方案,对 514 篇论文进行了组织,并实现了细粒度、多方位的检索。每篇论文都经过手工注释,捕捉了评估指标、质量维度、学习范式、解决的挑战、数据集和文档领域等方面。此外,针对每篇论文提供了简洁的提示性摘要,包括自动提取的上下文因素、问题以及提出的解决方案。该工具可在线访问,并提供了演示视频。
Feb, 2024
本文提出了一种能够利用文献中引言信息作为指针提取关键信息的提取式文本摘要方法,该方法在两个大规模的科学文献长篇摘要数据集上获得了显著的 Rouge 分数和人类评估的整体完整性和连贯性相较于传统 baseline 和现有先进技术的提升。
Jun, 2022
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
该论文提出一种名为 TL;DR 的视觉语言学习算法,它利用基于编码器 - 解码器的编码器来选择代表性样本,并生成新的标题,旨在将现有的大规模 VLP 数据压缩为小高质量数据集。实验证明,使用 TL;DR 压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。
May, 2023
本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题,并设计了两种不同类型的概述手段,即 LaySumm 和 LongSumm,使用 ROUGE 指标有效评估了本文系统的优越性。
Jan, 2021
SciBERTSUM 是一种针对科学论文的摘要框架,通过增加节嵌入层和应用稀疏注意力机制,在长文本(超过 500 句)中表现出更好的 ROUGE 分数。
Jan, 2022