属性结构化改善基于 LLM 的临床文本摘要评估
通过生成对比性摘要来解决用户在两个选项之间做决策时所面临的困难,STRUM-LLM 技术识别关键的差异属性,以及对用户决策最有影响力的特征。
Mar, 2024
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
通过 TriSum 框架,我们将大型语言模型的文本摘要能力提炼为一个紧凑且本地化的模型,以应对资源有限和注重隐私的环境。通过对各项任务进行演化式学习,我们的方法在各个评估基准上提升了本地化模型的性能,并提供了摘要的合理解释。
Mar, 2024
在本研究中,我们采用八个大型语言模型,在六个数据集和四个不同的摘要任务(放射学报告、患者问题、进展记录和医生 - 患者对话)上应用领域适应方法,系统评估了它们的效果,而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外,我们还将传统的自然语言处理指标与医生评分进行了相关性分析,以提高对这些指标与医生喜好的理解。最终,我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家,这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担,使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。
Sep, 2023
ATLAS 是一种新颖的主动摘要方法,可以使用有针对性的控制属性来控制生成摘要的整体 “浅显易懂” 性,它在生物医学科普摘要数据集上表现优于现有基准模型,并通过附加分析验证了所选可控属性的区分力和新兴影响的有效性。
Jun, 2024
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。
May, 2024
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大型语言模型。
Dec, 2022
该研究提出了一种新方法,即从长文档中提取关键句子,然后通过提示大型语言模型来评估摘要,以解决计算成本高、长文档中的重要信息往往被忽视的问题,研究结果显示该方法不仅显著降低了评估成本,而且与人工评估的相关性更高,此外,我们还提供了关于最佳文档长度和句子提取方法的实用建议,为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。
Sep, 2023
本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用,并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明,Facet-aware Metric 提供了一种更加合理的科学摘要评估方法,而在科学领域,经过精细调整的较小模型可以与大型语言模型竞争,但大型语言模型在学习科学领域中的上下文信息方面存在局限性,需要进一步改进。
Feb, 2024