从通才到专才：利用 ARCoT 改进医学物理的大型语言模型

May, 2024

从通才到专才：利用 ARCoT 改进医学物理的大型语言模型

From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT

Jace Grandinetti, Rafe McBeth

TL;DRARCoT 是一种专为提高大型语言模型 LLMs 在专业领域（如医学物理学）中的领域特定准确性而设计的框架，通过检索机制获取相关的领域特定信息，并采用回退和思维链提示技术来引导 LLM 的推理过程，确保更准确和上下文感知的回答。在医学物理学多项选择考试的基准测试中，我们的模型优于标准 LLMs 并报道了平均人类表现，实现了高达 90％的高分，改进了多达 68％。ARCoT 的通用性和模型不可知性使其能够轻松适应各个领域，展示了在专门领域中提高 LLMs 准确性和可靠性的重要潜力。

Abstract

large language models (LLMs) have achieved remarkable progress, yet their application in specialized fields, such as medical physics, remains challenging due to the need for →

large language models medical physics arcot retrieval mechanism domain-specific knowledge

发现论文，激发创造

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Apr, 2023

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

大型语言模型（LLM）作为多个专家代理系统：解决抽象和推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs）作为多个专家代理系统，通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性，我们试图解决抽象和推理语料库（ARC）挑战。通过将输入图像转换为多个适合的基于文本的抽象空间，我们利用 LLMs 的联想能力推导出输入输出关系，并将其映射到工作程序形式的行动，类似于 Voyager / Ghost in the MineCraft。此外，我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案（45%），仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动，我们将能够解决更多问题。

Oct, 2023

多步骤的无结构数据知识检索与推理

通过整合精细调整的大型语言模型与具有逻辑推理、规划和交互式约束求解能力的强大符号推理引擎，本研究介绍了 Cora，一个基于神经符号人工智能平台构建的协作研究助手，该助手旨在高风险领域执行复杂的研究和探索任务。本研究讨论了此类领域中的多步推理挑战，批评了现有的基于大型语言模型的方法的局限性，并展示了 Cora 的神经符号方法如何有效应对这些问题。我们提供了系统架构概述、知识提取和形式推理的关键算法，并展示了初步评估结果，突显了 Cora 与知名的大型语言模型和 RAG 方法相比的优越性能。

Jun, 2024

利用专业放射科医师的专长提升放射学报告的 LLM 评估

利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究，通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。

Jan, 2024

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

RO-LLaMA：通过噪声增强和一致性正则化实现放射治疗的综合型医学语言模型

近期人工智能在医疗领域有了显著进展，本研究提出 RO-LLaMA，一个通用的大型语言模型，特为放射肿瘤学领域量身定制，能够在临床报告总结、放疗方案建议等任务中表现出卓越的性能，并且通过 CEFTune 技术进一步提高了模型的鲁棒性，同时保持了处理干净输入的能力，还将此概念创造性地转化为 LLM 驱动的分割框架 CESEG。实验结果表明，RO-LLaMA 在多中心队列数据集上展现了出色的性能和泛化能力。

Nov, 2023

中文医药大语言模型中的健康相关原子知识的计算分析

通过构建基准测试并评估通用和专用语言模型，我们发现通用语言模型在原子知识和指令遵循能力方面表现更好，而专用语言模型在提供安全性方面表现较差，在提炼数据方面可以通过通用语言模型学习。此外，我们还发现提炼数据对于专用语言模型的微调效果最佳。

Oct, 2023

从初学者到专家：将医学知识建模到通用 LLM 中

本研究通过将预训练的通用大型语言模型精细调整为医学领域专家，并结合多种优化方法，包括注入通用医学知识、医学领域指导微调和特定医学任务适应性调整，成功提升了在医学领域的推理和应答能力。

Dec, 2023

医疗的声音：利用大型语言模型提高医学转录自动语音识别准确性

本研究探讨了大型语言模型（LLMs）在医学转录中提高自动语音识别（ASR）系统准确性的潜力，通过使用 PriMock57 数据集对 ASR 生成的转录进行改善，改进了一般词错误率（WER）、医学概念错误率（MC-WER）和音频流分离准确性，同时通过比较不同提示技术在日记化和纠错准确性上的有效性，发现 LLMs 特别是 Chain-of-Thought（CoT）提示技术不仅改善了现有 ASR 系统的日记化准确性，而且在医学转录领域取得了卓越表现，从而更准确地捕捉医学概念并提高转录对话的语义连贯性，这些发现表明 LLMs 在增强 ASR 输出的同时，也在转录任务中独立取得了显著成果，为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。

Feb, 2024