利用ChatGPT-3.5、ChatGPT-4、Google Bard和Microsoft Bing来提高儿科人群及其他人群的健康素养和沟通能力

Nov, 2023

利用ChatGPT-3.5、ChatGPT-4、Google Bard和Microsoft Bing来提高儿科人群及其他人群的健康素养和沟通能力

ChatGPT-3.5, ChatGPT-4, Google Bard, and Microsoft Bing to Improve Health Literacy and Communication in Pediatric Populations and Beyond

HTML

PDF

Kanhai S. Amin, Linda Mayes, Pavan Khosla, Rushabh Doshi

TL;DR使用大型语言模型（LLMs）提高儿童与其他人群的健康素养，通过改善健康沟通并在阅读级别上做出相应调整，但有挑战在六年级以下的创作输出。

Abstract

Purpose: Enhanced health literacy has been linked to better health outcomes; however, few interventions have been studied. We investigate whether large language models (LLMs) can serve as a medium to improve

发现论文，激发创造

利用神经机器翻译模型改善患者教育材料的健康素养

本研究旨在利用自然语言处理技术自动翻译难懂的句子，从而提高患者教育材料的健康素养水平。该实验使用四个在线医疗健康信息网站上的患者教育材料，通过训练Bidirectional Long Short-Term Memory（BiLSTM）NMT模型、Bidirectional Encoder Representations from Transformers（BERT）-based NMT模型，验证了NMT模型在翻译健康领域文本中的有效性。

Sep, 2022

ChatGPT 和大型语言模型在生物医学和健康领域的机遇和挑战

该研究调查了大型语言模型在生物医学和健康领域中的多种应用，包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等，并研究了LLM是否具有革新这些任务的能力，发现LLMs在生物医学文献生成方面已取得了显著进展，但在其他方面，其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大，但其使用也存在某些风险和挑战，例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。

Jun, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括Alpaca、Alpaca-LoRA和GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升LLMs在所有任务上的表现。我们最佳微调模型Mental-Alpaca在平衡精度上比GPT-3.5（规模大25倍）高出16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予LLMs更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

ChatGPT-3.5和GPT-4在美国医疗执照考试中的表现——带与不带干扰的比较

研究试图调查医学数据与闲聊混合对ChatGPT提供的医疗建议准确性的影响，结果显示ChatGPT-4的准确性比3.5版本更高，并且似乎闲聊不会影响其提供医疗建议的能力，这对于理解利用ChatGPT和其他LLM进行医患互动的潜力和限制是重要的第一步。

Sep, 2023

评估儿科眼科中的多种大型语言模型

评估大型语言模型在儿科眼科学中的表现与医学生和医生的对比试验结果显示，大型语言模型有潜力为儿科眼科提供医疗援助，并具有指导医学生教育的重要能力。

Nov, 2023

大型语言模型与专家相当：识别青少年在线论坛中的心理健康因素

儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型（LLMs）的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个Reddit帖子的新数据集，经过专家精神科医生的标注，用于以下类别：创伤，不稳定性，病情，症状，自杀倾向和治疗，并将专家标签与两个表现最佳的LLMs（GPT3.5和GPT4）的注释进行比较。我们发现GPT4与人际标注者一致性的表现相当，并且合成数据的性能要高得多，但我们发现模型有时仍会在否定和事实性问题上犯错误，合成数据的更高性能是由于真实数据的复杂性而不是固有优势。

Apr, 2024

MedDoc-Bot：儿科高血压指南背景下的大型语言模型比较分析聊天工具

这项研究评估了非商业开源大型语言模型（LLMs）Meditron，MedAlpaca，Mistral和Llama-2在解释保存为PDF格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具（MedDoc-Bot），能够上传PDF文件并提出问题，从四个本地存储的LLM中生成解释性回复。研究发现，Llama-2和Mistral在度量评估中表现良好，但Llama-2在处理文本和表格数据时较慢。

May, 2024

比较GPT-4与Chat-GPT在心理健康护理中的功效：对大型语言模型进行盲评估以支持心理辅导

该研究比较了两个大型语言模型GPT-4和Chat-GPT在回应18个心理提示方面的表现，以评估它们在心理健康护理环境中的潜在适用性。结果显示GPT-4在生成临床相关和富有同理心的回应方面更有效，提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献，强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素，并探索其在不同人群和心理健康状况中的普适性。

May, 2024

评估大型语言模型用于公共卫生分类和提取任务

基于对LLMs在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估LLMs在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现Llama-3-70B-Instruct是性能最好的模型，在15个任务中取得最佳结果。这些初步结果表明，LLMs可能成为公共卫生专家从各种免费文本来源中提取信息，并支持公共卫生监测、研究和干预的有用工具。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024