一个针对大型语言模型的 S.C.O.R.E. 评估框架：安全性，共识性，客观性，可重复性和可解释性

Jul, 2024

一个针对大型语言模型的 S.C.O.R.E. 评估框架：安全性，共识性，客观性，可重复性和可解释性

A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability

HTML

PDF

Ting Fang Tan, Kabilan Elangovan, Jasmine Ong, Nigam Shah, Joseph Sung...

TL;DR一个用于对大型语言模型进行全面质量评估的框架，超越传统准确性和定量指标，提出了评估LLM的5个关键方面：安全性、共识性、客观性、可再现性和可解释性（S.C.O.R.E.）。我们建议S.C.O.R.E.可以成为未来的基于LLM模型的评估框架，用于医疗保健和临床应用，确保其安全、可靠、可信和道德。

Abstract

A comprehensive qualitative evaluation framework for large language models (LLM) in healthcare that expands beyond traditional accuracy an

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

医疗大语言模型综述：从数据、技术和应用到问责与伦理

大型语言模型在医疗领域的利用引发了劲头和担忧，本文概述了目前开发的大型语言模型在医疗保健方面的能力，并阐明它们的发展过程，旨在提供从传统预训练语言模型（PLMs）到大型语言模型（LLMs）的发展路线图的概览。总的来说，我们认为正在进行一次重大的范式转变，从PLMs过渡到LLMs，这包括从辨别式人工智能方法向生成式人工智能方法的转变，以及从以模型为中心的方法论向以数据为中心的方法论的转变。

Oct, 2023

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Jan, 2024

医疗行业中评估大型语言模型应用的综合调研

综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估，强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。

Apr, 2024

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

医疗领域生成型大型语言模型人工评估的文献综述与框架

该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法，并使用QUEST框架提出了一个标准化和统一的人工评估方法，旨在提高可靠性和适用性。

May, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

医学中的大型语言模型综述

在这篇论文中，我们回顾了大型语言模型（LLMs）的发展，重点关注医学LLMs的需求和应用。我们提供了现有模型的简要概述，旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学LLMs在应用中的优势，以及其发展过程中遇到的挑战。最后，我们提出了技术整合的方向来减轻挑战，并为医学LLMs的未来研究方向提供了建议，旨在更好地满足医学领域的需求。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024