使用GPT-4进行食物影响摘要以增强产品特定指南开发

Jun, 2023

使用GPT-4进行食物影响摘要以增强产品特定指南开发

Leveraging GPT-4 for Food Effect Summarization to Enhance Product-Specific Guidance Development via Iterative Prompting

Yiwen Shi, Ping Ren, Jing Wang, Biao Han, Taha ValizadehAslani...

TL;DR通过多轮交互性迭代，使用ChatGPT或GPT-4进行关键词聚焦和长度控制的提示，开发了一种简单而有效的方法，用于从NDA审查文件中自动总结药物食物效应，研究发现GPT-4比ChatGPT性能更好，可提高PSG评估周期的效率。

Abstract

food effect summarization from New Drug Application (NDA) is an essential component of product-specific guidance (PSG) development and assessment. However, manual summarization of food effect from extensive drug

发现论文，激发创造

基于BERT的药物信息ADME语义标注自动化微调，提升FDA药品标签的产品特定指导评估

本文利用预训练语言模型通过Fine-tuning, 自动实现药物ADME段落在药代动力学部分的标签，解决FDA标签中对Product-specific guidances(PSGs) 的要求，其结果表明，预训练的BERT模型在ADME语义标签任务中可以优于传统机器学习技术，完成了首次成功地将BERT应用于解决ADME语义标签任务的尝试。

Jul, 2022

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B的提示调整版本）。

Mar, 2023

使用GPT-3对医学证据进行总结、简化和综合（成功率不同）

本文使用专业医学人士对GPT-3生成的医学文章摘要进行了评估，发现GPT-3虽然能够忠实地总结和简化单篇生物医学文章，但在多篇文章发现的证据综合方面存在困难。

May, 2023

MEDIQA-Chat 2023中的SummQA：使用GPT-4进行上下文学习的医学摘要

研究围绕通过两阶段方法和使用GPT-4模型进行对话摘要，通过比较与基线的性能表现发现few-shot prompting的有效性，但是也指出了它的一些局限性。

Jun, 2023

药物-GPT和ChatGPT LLMs对医疗洞察的比较分析：在患者和医疗专业人员背景下评估准确性和相关性

本研究比较分析了三种生成式预训练转换模型（GPT）在问答环境中的应用：Drug-GPT 3、Drug-GPT 4和ChatGPT，并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎（AD）患者经历和与糖尿病相关的医疗专业人员（HCP）讨论的问题时能提供最准确和相关的信息。结果表明，虽然这三种模型都能生成相关和准确的回答，但Drug-GPT 3和Drug-GPT 4这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT这种更通用的模型生成了更宽泛和一般性的回答，对于希望获得对主题的整体理解的读者来说可能是有价值的，但可能缺乏Drug-GPT模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。

Jul, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对GPT-4在标题/摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然GPT-4在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对GPT-4进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM可以与人工表现媲美。

Oct, 2023

多模式ChatGPT进行饮食评估的系统分析

常规的饮食评估方法主要基于自述法或在饮食师监督下进行的结构化面谈，然而这些方法往往主观、有可能不准确且耗时，最近的多模态ChatGPT研究表明其在特定语境下的食物检测准确性高达87.5%，并能通过周围物体作为参考来推断食物的份量，进一步提高了翻译食物重量为营养内容的准确性。

Dec, 2023

PharmGPT：面向生物制药和化学领域的特定领域大型语言模型

PharmGPT is a suite of multilingual LLMs specifically trained on a comprehensive corpus tailored to the Bio-Pharmaceutical and Chemical sectors, demonstrating exceptional capability in domain-specific tasks, addressing the existing gap in specialized language modeling, and paving the way for more effective applications of NLP in specialized domains.

Jun, 2024

注册营养师考试中LLMs的准确性与一致性：提示工程和知识检索的影响

本研究探讨了当前的LLMs在营养与饮食相关应用中的表现不足，尤其是在注册营养师考试中的准确性与一致性。研究首次评估了多种提示方法对模型表现的影响，发现GPT-4o在链式思维自一致性提示下表现最佳，而选择合适的LLM和提示技术能有效降低饮食和营养聊天机器人的错误与风险。

Aug, 2024

大型语言模型在注册营养师考试中的准确性与一致性：提示工程与知识检索的影响

本研究针对营养和饮食应用领域中的评估不足问题，通过注册营养师考试对多个先进的大型语言模型进行标准化评价。研究首次探讨了不同提示技术对模型表现的影响，发现合适的模型与提示方式能有效降低饮食与营养聊天机器人的错误与风险。

Aug, 2024