开放（临床）LLMs 对指导措辞敏感

Jul, 2024

开放（临床）LLMs 对指导措辞敏感

Open (Clinical) LLMs are Sensitive to Instruction Phrasings

Alberto Mario Ceballos Arroyo, Monica Munnangi, Jiuding Sun, Karen Y. C. Zhang, Denis Jered McInerney...

TL;DR通过收集医学医生在各种任务中提供的提示，并量化七个（包括泛化和专业化的）大型语言模型对于自然语言变化引导的临床自然语言处理任务的敏感性，我们发现在所有模型中，性能差异很大，并且专门在临床数据上进行训练的领域特定模型比其泛域对应模型更加脆弱。而且，任意变化的指示问题可以影响公平性，例如针对死亡率预测的有效但不同的指示给出了整体性能和不同人群之间的差异范围。

Abstract

instruction-tuned large language models (LLMs) can perform a wide range of tasks given natural language instructions to do so, but they are sensitive to how such instructions are phrased. This issue is especially concerning in →

发现论文，激发创造

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入“软提示”嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct和Alpaca）在13项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在QA任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和RE任务的性能低于专门训练用于医学领域的模型（如PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为“扩展-猜测-精化”的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从USMLE数据集中选取的问题子集上达到了70.63%的优异表现。

Sep, 2023

零轉化臨床自然語言處理中大型語言模型的提示策略實證評估

本文综合系统地对五个临床自然语言处理任务（临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取）的提示工程进行了实验研究，评估了多种提示类型在三种先进的大型语言模型（GPT-3.5、BARD 和 LLAMA2）上的性能，并提出了对临床 NLP 领域提示工程的新见解和指南。

Sep, 2023

探索生物医学语言处理中指令调整的有效性

利用指令调整（instruction tuning）技术，对两个规模庞大的通用语言模型进行研究，以期在生物医学自然语言处理任务上取得类似于BioBERT和BioClinicalBERT等特定编码器模型的结果，并提供了相应的代码、模型和基于指令的数据集。

Dec, 2023

CLUE: 用于LLMs的临床语言理解评估

为填补现有研究中缺乏对医疗领域广泛应用的临床任务的评估的空白，我们提出了一种适用于现实世界临床任务的基准测试工具 CLUE，并通过评估多个生物医学和通用领域 LLMs 的临床表现和适用性，推进医疗领域的 LLMs 评估和开发的标准化方法。

Apr, 2024

SemEval-2024任务2上的D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量-定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了0.748的F1分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

大型语言模型的概率医学预测

本研究解决了大型语言模型（LLMs）在生成临床预测概率时的可靠性问题。通过对比显式和隐式概率，该研究发现显式概率在区分、精确度和召回率方面的表现较差，尤其是在小型LLM和不平衡数据集上更为明显。这一发现强调了在临床应用中对生成概率的谨慎解读与研究的必要性。

Aug, 2024

针对医疗领域机器翻译的指令调优大型语言模型

本研究针对医疗领域机器翻译中的表现不足问题，通过引入专业医学术语对大型语言模型进行指令调优。研究发现，指令调优的模型在自动评估指标上明显优于基线模型，展现了在特定领域内提高术语一致性的潜力。

Aug, 2024