使用GPT-4进行食物影响摘要以增强产品特定指南开发
本文利用预训练语言模型通过Fine-tuning, 自动实现药物ADME段落在药代动力学部分的标签,解决FDA标签中对Product-specific guidances(PSGs) 的要求,其结果表明,预训练的BERT模型在ADME语义标签任务中可以优于传统机器学习技术,完成了首次成功地将BERT应用于解决ADME语义标签任务的尝试。
Jul, 2022
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B的提示调整版本)。
Mar, 2023
本文使用专业医学人士对GPT-3生成的医学文章摘要进行了评估,发现GPT-3虽然能够忠实地总结和简化单篇生物医学文章,但在多篇文章发现的证据综合方面存在困难。
May, 2023
研究围绕通过两阶段方法和使用GPT-4模型进行对话摘要,通过比较与基线的性能表现发现few-shot prompting的有效性,但是也指出了它的一些局限性。
Jun, 2023
本研究比较分析了三种生成式预训练转换模型(GPT)在问答环境中的应用:Drug-GPT 3、Drug-GPT 4和ChatGPT,并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎(AD)患者经历和与糖尿病相关的医疗专业人员(HCP)讨论的问题时能提供最准确和相关的信息。结果表明,虽然这三种模型都能生成相关和准确的回答,但Drug-GPT 3和Drug-GPT 4这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT这种更通用的模型生成了更宽泛和一般性的回答,对于希望获得对主题的整体理解的读者来说可能是有价值的,但可能缺乏Drug-GPT模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。
Jul, 2023
这项研究通过对GPT-4在标题/摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然GPT-4在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对GPT-4进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM可以与人工表现媲美。
Oct, 2023
常规的饮食评估方法主要基于自述法或在饮食师监督下进行的结构化面谈,然而这些方法往往主观、有可能不准确且耗时,最近的多模态ChatGPT研究表明其在特定语境下的食物检测准确性高达87.5%,并能通过周围物体作为参考来推断食物的份量,进一步提高了翻译食物重量为营养内容的准确性。
Dec, 2023
PharmGPT is a suite of multilingual LLMs specifically trained on a comprehensive corpus tailored to the Bio-Pharmaceutical and Chemical sectors, demonstrating exceptional capability in domain-specific tasks, addressing the existing gap in specialized language modeling, and paving the way for more effective applications of NLP in specialized domains.
Jun, 2024
本研究探讨了当前的LLMs在营养与饮食相关应用中的表现不足,尤其是在注册营养师考试中的准确性与一致性。研究首次评估了多种提示方法对模型表现的影响,发现GPT-4o在链式思维自一致性提示下表现最佳,而选择合适的LLM和提示技术能有效降低饮食和营养聊天机器人的错误与风险。
Aug, 2024
本研究针对营养和饮食应用领域中的评估不足问题,通过注册营养师考试对多个先进的大型语言模型进行标准化评价。研究首次探讨了不同提示技术对模型表现的影响,发现合适的模型与提示方式能有效降低饮食与营养聊天机器人的错误与风险。
Aug, 2024