在沟通性医疗辅导中对大型语言模型进行基准测试：一种新的系统和数据集

Feb, 2024

在沟通性医疗辅导中对大型语言模型进行基准测试：一种新的系统和数据集

Benchmarking Large Language Models on Communicative Medical Coaching: a Novel System and Dataset

Hengguan Huang, Songtao Wang, Hongfu Liu, Hao Wang, Ye Wang

TL;DR通过聊天对话系统，结合自然语言处理技术，开发出了一个医学交流技能辅导平台，有效帮助医学学习者提高沟通能力，并对比了使用不同的语言模型的效果。

Abstract

Traditional applications of natural language processing (NLP) in healthcare have predominantly focused on patient-centered services, enhancing patient interactions and care delivery, such as through medical

natural language processing healthcare medical coaching dialogue systems communicative medical coaching

发现论文，激发创造

NoteChat: 临床笔记为条件的合成医患对话数据集

医生在每次患者访问后撰写的详细临床记录对医生和研究人员至关重要。利用语言模型自动化创建这些记录可以减轻医生的工作负担。本文介绍了 NoteChat，一个利用大型语言模型生成基于临床记录的合成医患对话的协作多代理框架。NoteChat 包括规划、角色扮演和润色模块。通过与 OpenAI 的 ChatGPT 和 GPT-4 等最先进模型进行全面的自动和人工评估，结果表明 NoteChat 促进了高质量的合成医患对话，突显了语言模型在医疗保健中的潜力。这项工作是多个语言模型合作完成以临床记录为条件的医患对话的首次示例，为人工智能与医疗保健的交叉领域提供了有前景的途径。

Oct, 2023

使用大型语言模型从医生 - 患者对话中生成临床笔记：来自 MEDIQA-Chat 的见解

本文介绍了我们在 MEDIQA-Chat 2023 共享任务中对于从医生 - 患者对话自动生成临床笔记的提交。我们报道了两种方法的结果：第一种微调共享任务数据上的预训练语言模型（PLM），第二种使用大型语言模型（LLM）进行少量样本的上下文学习（ICL）。两种方法在自动指标（如 ROUGE，BERTScore）上均实现了高性能，并分别排名共享任务的二和一位。专业人士的审查表明，通过基于 ICL 的方法和 GPT-4 生成的笔记与人工书写的笔记一样受欢迎，这使其成为从医生 - 患者对话自动生成笔记的有前途的途径。

May, 2023

使用真实世界的医生与患者互动评估大型语言模型的共情能力

大型语言模型（LLMs）在医疗领域的整合潜在地可以通过开发具有共情能力，面向患者的聊天机器人，显著增强患者护理和支持。本研究调查了一个有趣的问题：相较于通常由医生提供的，ChatGPT 能否提供更高程度的共情回应？为了回答这个问题，我们从梅奥诊所收集了病人信息和医生回复的去标识化数据集，并使用 ChatGPT 生成了备选回复。我们的分析包括了一种新的共情评级（EMRank）评估方法，评估回复的共情程度，该方法涵盖了自动化指标和人工评估。我们的研究结果表明，由 LLM 驱动的聊天机器人在传递共情沟通方面有超过人类医生的潜力，这为增强患者护理和减少专业倦怠提供了有前景的途径。本研究不仅强调了患者互动中共情的重要性，还提出了一套有效的自动共情评级指标，为 LLM 在医疗领域更广泛的应用铺平了道路。

May, 2024

ChatDoctor：一个使用医疗领域知识对 LLaMA 模型进行微调的医疗聊天模型

本论文提出了将现有的语言模型细调为医疗领域的医生 - 患者对话模型，以更好地理解患者需求、为医疗领域提供有价值的帮助，并将进一步开源相关数据、代码和模型来推进医疗领域的对话模型的发展。

Mar, 2023

借助大型语言模型提升患者互动：数字健康中的对话人工智能的力量

通过四个案例研究展示了大型语言模型在医疗保健中的应用，包括分析 Reddit 上的心理健康讨论、为老年人进行认知参与开发个性化聊天机器人、总结医疗对话数据集和设计 AI 助力病患参与系统。同时讨论了在医疗保健环境中引入大型语言模型的道德考虑、最佳实践和指南。

Jun, 2024

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

赋能临床医生与民主化数据科学：大型语言模型自动化临床研究的机器学习

chatGPT Code Interpreter (CI) 通过自主开发 ML 模型来预测临床结果并在医学研究和实践中推广广泛应用，从而弥合机器学习开发者和临床实践者之间的知识鸿沟。

Aug, 2023

ChatCounselor：一个用于心理健康支持的大型语言模型

ChatCounselor 是一种基于真实心理咨询对话构建的大型语言模型解决方案，它拥有专业心理学知识和咨询技巧，在咨询工作中具备专门化的能力；使用心理咨询评估的七个指标作为依据，通过 GPT-4 和精心设计的提示进行训练，ChatCounselor 在实际咨询问题上的表现超越了开源模型，接近于 ChatGPT，展示了通过高质量领域特定数据获得的模型能力的显著增强。

Sep, 2023

MedGPTEval: 一份用于评估大型医学语言模型响应的数据集和基准测试

通过对 LLMs 进行基于交互式医疗对话的实验评估，设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准，并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJiang 三个聊天机器人进行了盲测试比较，其中 Doctor PuJiang 在多回合医疗对话和实证报告情景下表现最优。

May, 2023

ChatGPT 和大型语言模型在生物医学和健康领域的机遇和挑战

该研究调查了大型语言模型在生物医学和健康领域中的多种应用，包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等，并研究了 LLM 是否具有革新这些任务的能力，发现 LLMs 在生物医学文献生成方面已取得了显著进展，但在其他方面，其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大，但其使用也存在某些风险和挑战，例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。

Jun, 2023