医学摘要中省略的外在评估

Nov, 2023

Extrinsically-Focused Evaluation of Omissions in Medical Summarization

Elliot Schumacher, Daniel Rosenthal, Varun Nair, Luladay Price, Geoffrey Tso...

TL;DR我们提出了一种针对医学摘要的新的遗漏评估基准 MED-OMIT，通过模拟每个事实对下游临床任务（鉴别诊断生成）的影响，将医生 - 患者对话和生成的摘要分类为一组事实并识别其在摘要中的遗漏。我们使用基于 LLM 提示的方法对事实的重要性进行排序并将其聚类为支持或否认诊断的证据。通过在公开数据集上评估 MED-OMIT，我们发现 MED-OMIT 比其他度量方法更好地捕捉到了遗漏。

Abstract

The goal of automated summarization techniques (Paice, 1990; Kupiec et al, 1995) is to condense text by focusing on the most critical information. generative large language models (LLMs) have shown to be robust s

automated summarization techniques generative large language models safety-critical domains med-omit omission benchmark

发现论文，激发创造

自动医疗记录生成评估指标研究

本文旨在研究自动生成临床笔记的评估方法和度量标准，提出了新的任务特定度量标准，并将其与现有文本摘要和生成的 SOTA 度量标准进行比较，研究分布和测量不同的自动摘要的正确性，并试图确定与人类判断相一致的最佳自动评估指标。

May, 2023

对话摘要中省略理解研究

该论文提出了一个带有省略标签的高质量数据集，用于对话摘要中的省略检测，研究发现，通过提供省略标签，可以实现摘要模型中省略信息的恢复，从而显著提高摘要质量，因此提出一个省略检测任务，基于该数据集支持该任务的训练和评估，同时呼吁基于该数据集进行的省略检测研究。

Nov, 2022

使用大型语言模型生成医学准确的患者 - 医生对话摘要：一种多阶段方法

本研究使用 GPT-3 模型，将医学对话摘要问题离散成多个对话理解任务，并动态构建少样本提示进行实验，开发了基于 GPT 的度量标准，评估任务性能，经过研究评价证实，此方法生成的摘要临床准确性优于基准方法。

May, 2023

Dr. Summarize: 利用本地结构全局总结医学对话

本文提出一种基于指针生成网络的医疗对话摘要方法，该方法对医疗本体的使用进行了优化，能够很好地捕捉患者病史中的本地结构，获得了医生的青睐，是一种替代手动摘要方法的现实选择。

Sep, 2020

卓越总结者的眼睛是经验和证据！走向融合知识的多模态临床对话总结

通过多模态、多任务的医学领域识别和临床对话摘要生成 (MM-CliConSummation) 框架，本文提出了一种知识注入的、多模态的、多任务的临床对话摘要生成任务，旨在通过适配器融合知识和视觉特征，并使用门机制统一融合特征向量，将医生 - 患者交互 (包括文本和视觉信息) 生成简明扼要的摘要。在大量的定量和定性实验中，得出了以下结果：(a) 视觉信息的重要性；(b) 更精确且保留医学实体的摘要；(c) 医学部门识别与临床摘要生成之间的相关性。

Sep, 2023

本体感知的临床抽象摘要

通过添加领域特定本体信息增强内容选择和摘要生成，我们的序列到序列抽象式摘要模型的应用于放射学报告数据集，能够显著优于当前最先进的方法，同时经过放射学家的人类评估，表明该方法生成的摘要不太可能省略重要细节，而且读起来依然具有可读性和准确性。

May, 2019

FaMeSumm：医学摘要准确性的研究与改进

我们研究了医学文本概述的忠实性，发现当前的概述模型常常会产生不忠实的输出，因此我们引入了 FAMESUMM 框架来改进忠实性，并通过对医学知识进行预训练模型微调，使用对比学习的方式提高医学术语的忠实生成，实验结果和医生的人工评估都证明了 FAMESUMM 在忠实性和总体质量的指标上具有优越性。

Nov, 2023

利用神经多文档摘要生成（事实性的？）随机对照试验纪要：实验研究

本研究中，我们探讨了使用现代神经模型从多个试验报告中自动生成叙述性生物医学证据摘要的问题，并使用 Cochrane 协作成员先前进行的系统性评论的相关文章摘要的抽象概述来评估现代神经模型进行抽象总结的效果。我们征求了医学专业人员对生成的摘要进行评估，并发现现代总结系统产生了一致流畅和相关的概述，但并非总是准确。我们提出新的方法通过明确划分传达关键发现的输入片段、强调大规模和高质量试验报告等领域特定的模型来信息摘要，发现这些策略适度提高了生成摘要的准确性。最后，我们提出了一种新的方法来自动生成叙述性证据综述的事实性评估，使用可推断报道发现方向的模型。

Aug, 2020

生物医学小白指南：规划大型语言模型

使用大型语言模型改进自动化文档摘要，尤其在简化复杂技术文件、生成背景知识、评估文本中起到了重要作用，并在医学文章的简化和评估方面做出了创新性的工作。

Feb, 2024

FactPICO：医学证据的简化语言摘要的事实性评估

FactPICO 是一个针对医学文本的纯文本摘要事实性基准，通过细致评估和专家的自然语言解释，评估了基于 LLMs 的三种纯文本摘要生成模型（GPT-4，Llama-2 和 Alpaca）生成的 345 个 RCT 摘要的事实性，解析了 RCT 的关键元素（人口、干预措施、比较、结果）以及相关发现的准确性，也评估了 LLMs 添加的额外信息（如解释）的准确性，研究发现纯文本医学证据的摘要仍然具有挑战性，尤其是在简单性和事实性之间的平衡，并且现有的度量方法与专家判断在实例级别上的相关性较差。

Feb, 2024