利用ChatGPT-3.5、ChatGPT-4、Google Bard和Microsoft Bing来提高儿科人群及其他人群的健康素养和沟通能力
本研究旨在利用自然语言处理技术自动翻译难懂的句子,从而提高患者教育材料的健康素养水平。该实验使用四个在线医疗健康信息网站上的患者教育材料,通过训练Bidirectional Long Short-Term Memory(BiLSTM)NMT模型、Bidirectional Encoder Representations from Transformers(BERT)-based NMT模型,验证了NMT模型在翻译健康领域文本中的有效性。
Sep, 2022
该研究调查了大型语言模型在生物医学和健康领域中的多种应用,包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等,并研究了LLM是否具有革新这些任务的能力,发现LLMs在生物医学文献生成方面已取得了显著进展,但在其他方面,其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大,但其使用也存在某些风险和挑战,例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。
Jun, 2023
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括Alpaca、Alpaca-LoRA和GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升LLMs在所有任务上的表现。我们最佳微调模型Mental-Alpaca在平衡精度上比GPT-3.5(规模大25倍)高出16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予LLMs更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
研究试图调查医学数据与闲聊混合对ChatGPT提供的医疗建议准确性的影响,结果显示ChatGPT-4的准确性比3.5版本更高,并且似乎闲聊不会影响其提供医疗建议的能力,这对于理解利用ChatGPT和其他LLM进行医患互动的潜力和限制是重要的第一步。
Sep, 2023
儿童和青少年的心理健康在过去几年中不断恶化。大型语言模型(LLMs)的出现为监测和干预的成本和时间效率提供了很大希望。我们创建了一个Reddit帖子的新数据集,经过专家精神科医生的标注,用于以下类别:创伤,不稳定性,病情,症状,自杀倾向和治疗,并将专家标签与两个表现最佳的LLMs(GPT3.5和GPT4)的注释进行比较。我们发现GPT4与人际标注者一致性的表现相当,并且合成数据的性能要高得多,但我们发现模型有时仍会在否定和事实性问题上犯错误,合成数据的更高性能是由于真实数据的复杂性而不是固有优势。
Apr, 2024
这项研究评估了非商业开源大型语言模型(LLMs)Meditron,MedAlpaca,Mistral和Llama-2在解释保存为PDF格式的医学指南方面的效力。研究开发了一个用户友好的医学文档聊天机器人工具(MedDoc-Bot),能够上传PDF文件并提出问题,从四个本地存储的LLM中生成解释性回复。研究发现,Llama-2和Mistral在度量评估中表现良好,但Llama-2在处理文本和表格数据时较慢。
May, 2024
该研究比较了两个大型语言模型GPT-4和Chat-GPT在回应18个心理提示方面的表现,以评估它们在心理健康护理环境中的潜在适用性。结果显示GPT-4在生成临床相关和富有同理心的回应方面更有效,提供更好的支持和指导。这项研究为大型语言模型在心理健康护理领域的适用性提供了贡献,强调了在该领域持续研究和开发的重要性。需要进一步研究了解造成两个模型性能差异的具体因素,并探索其在不同人群和心理健康状况中的普适性。
May, 2024
基于对LLMs在公共卫生任务中的自动评估,将六个外部注释数据集与七个新的内部注释数据集相结合,评估LLMs在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能,发现Llama-3-70B-Instruct是性能最好的模型,在15个任务中取得最佳结果。这些初步结果表明,LLMs可能成为公共卫生专家从各种免费文本来源中提取信息,并支持公共卫生监测、研究和干预的有用工具。
May, 2024
综述医疗大型自然语言模型(Med-LLM)的进化历史、技术、应用以及对医疗保健的影响,涵盖临床决策支持、报告生成、医学教育等方面,探索其潜力和限制,并讨论公平性、责任感、隐私保护和鲁棒性等挑战,展望未来的发展方向。
Jun, 2024