可控可读性生物医学文档摘要
本文系统总结了使用预训练语言模型( Pre-trained language models)的生物医学文本摘要的最新进展、挑战问题和未来方向,帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。
Apr, 2023
本文介绍了一个新的自动生成生物医学科学综述文献简化版的任务,并通过分析各种挑战,实验和评估,展示了使用现代神经架构自动生成的简化版摘要可以达到良好的质量和可读性。
Dec, 2020
研究大型语言模型在科学摘要任务上的可控性问题,通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类,同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性,从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而,研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要,且在生成高度抽象的通俗摘要方面存在有限能力,因此在领域特定应用中,仍然存在着需要昂贵微调才能解决的问题。
Jan, 2024
使用内存高效的大型语言模型进行文本精炼有助于提高可阅读性,而在长文本输入的文本生成任务中,如多文档摘要,控制性是一个需要关注的问题。本文研究了一种用于多文档摘要的通用的可控方法,利用大型语言模型来提炼文本。具体来说,我们训练了一个可控的内容提取方案,用于提取需要由大型语言模型提炼的文本。该方案采用了一种新颖的覆盖和连贯性直观策略,并由一个被动训练的大型语言模型适当地奖励。我们的方法在使用 ROUGE 指标进行评估时取得了有竞争力的结果,并在人工评估中在连贯性方面胜过潜在的基准。
Oct, 2023
本文提出了一种神经摘要模型,能够通过简单而有效的机制实现用户对文本长度、风格、感兴趣的实体等高级属性的控制,以生成符合用户需求的高质量摘要,并在 CNN-Dailymail 数据集上优于现有的自动化系统和人工评价。
Nov, 2017
本论文介绍了在 ACL 2023 的 BioNLP 研讨会上举办的生物医学研究文章 Lay Summarisation 的共享任务的结果,并报告了总体结果和吸引了 20 支参赛队伍的设置和见解。
Sep, 2023
总结特定用户的需要和意图,关注于开发更贴合特定目标和用户需求的文本摘要方法。最近的学术关注点转向了更可控的摘要方法的发展,但缺乏全面的调查来深入探索在这一背景下所使用的各种可控性方面或属性,并研究现有的解决方案。在本调查中,我们形式化了可控文本摘要任务,根据它们的共享特征和目标将可控性方面进行分类,并对每个类别中的现有方法和数据集进行了全面的研究。此外,根据我们的调查结果,我们发现了一些限制和研究空白,同时也探讨了 CTS 的潜在解决方案和未来发展方向。
Nov, 2023
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
使用大型语言模型改进自动化文档摘要,尤其在简化复杂技术文件、生成背景知识、评估文本中起到了重要作用,并在医学文章的简化和评估方面做出了创新性的工作。
Feb, 2024