肿瘤检索生成分类器

Apr, 2024

Onco-Retriever: Generative Classifier for Retrieval of EHR Records in Oncology

Shashi Kant Gupta, Aditya Basu, Bradley Taylor, Anai Kothari, Hrituraj Singh

TL;DR利用生成式大语言模型检索和提取信息，构建领域特定的检索器，为临床医疗组织提供解决真实世界电子病历数据查询问题的路径。

Abstract

Retrieving information from ehr systems is essential for answering specific questions about patient journeys and improving the delivery of clinical care. Despite this fact, most ehr systems still rely on keyword-

ehr systems generative large language models retrieval-augmented generation query-document support pairs onco-retriever

发现论文，激发创造

基于检索增强生成的问答型电子健康记录摘要

电子健康记录的总结可以极大地减少患者和医务人员的 “屏幕时间”。近年来，通过使用最先进的神经模型，电子健康记录的总结已经采用了机器学习流程。然而，这些模型产生了不够令人满意的结果，这要归因于很难获取足够的注释数据进行训练。此外，考虑到电子健康记录的整个内容在总结中的要求，由于现代大型语言模型（LLMs）中的注意机制增加了二次复杂度，导致性能较差。我们在此提出了一种方法，通过结合语义搜索、检索增强生成（RAG）和使用最新的 LLMs 的问答方法来减轻这些缺点。在我们的方法中，总结是根据专业学科专家（SMEs）认为的重要问题的答案的提取。我们的方法非常高效；几乎不需要训练；不会受到 LLMs 的 “幻觉” 问题的困扰；而且可以确保多样性，因为总结中不会有重复的内容，而是针对特定问题的多样答案。

Jan, 2024

借助具备检索增强功能的大型语言模型改进医学推理

自主生物文档检索增强式生成（Self-BioRAG）是一种可靠的生物医学文本生成解释、检索特定领域文档，并进行自我反思的框架。通过使用 84k 个过滤后的生物医学指令集训练 Self-BioRAG，它可以使用定制的反思标记评估其生成的解释。实验结果表明，Self-BioRAG 在三个主要的医学问答基准数据集上实现了显著的性能增益，平均绝对改进率为 7.2％，超过了参数大小为 7B 或更少的最先进的开放式基础模型。我们将数据和模型权重（7B 和 13B）发布出来，以增强生物医学和临床领域的能力。

Jan, 2024

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

工具呼叫：通过检索增强大型语言模型提升药物咨询

基于检索增强生成（RAG）的大规模语言模型（LLMs）在医学领域的知识密集型任务中表现出显著的性能提升，着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题，并提出了 Distill-Retrieve-Read 框架用于关键字搜索，实验结果证明了该框架在证据检索准确性方面的优势。

Apr, 2024

使用迭代检索生成协同技术增强检索增强型大型语言模型

本研究提出一种名为 Iter-RetGen 的方法，通过检索和生成的迭代协同作用，以全面地处理检索到的知识并在不受结构约束的情况下实现灵活的生成，而这可以在多跳问答、事实验证和常识推理等任务中实现可比甚至优于现有检索辅助基准的效果，同时减少检索和生成的开销，从而提高了性能。

May, 2023

利用电子健康记录的流行病学问题回答中的检索辅助文本转 SQL 生成

引入一种基于文本到 SQL 生成和检索增强生成（RAG）的端到端方法，利用电子健康记录和索赔数据回答流行病学问题，研究表明该方法显著提高了性能，对提高语言模型能力有应用前景。

Mar, 2024

利用大型语言模型进行临床报告错误校正的知识检索

临床放射学报告中的错误更正方法研究，利用大型语言模型（LLMs）和检索增强生成（RAG）技术，通过内部和外部检索机制从报告和外部知识源中提取相关医学实体和关系，并引入三阶段推理过程，将任务分解成错误检测、定位和更正子任务，从而提高了系统的可解释性和性能，并通过由领域专家指导的对真实世界放射学报告进行真实错误损坏的基准数据集进行了评估，实验结果表明了所提方法的优势，通过内部和外部检索的结合显著提高了各种最先进的 LLMs 在错误检测、定位和更正方面的准确性，研究结果有助于为临床文档制定更健壮可靠的错误更正系统。

Jun, 2024

SimplyRetrieve: 一个私密且轻量级的以检索为中心的生成人工智能工具

基于大语言模型（LLM）的生成型人工智能系统近年来取得了显著进展。集成知识检索架构可以无需额外模型微调，实现私有数据与公开可用的生成型人工智能系统的无缝集成。此外，提出的检索中心化生成（RCG）方法将 LLMs 和检索器在上下文解释和知识记忆方面明确分离，这可能导致更高效的实现。SimplyRetrieve 是一个开源工具，旨在为机器学习社区提供本地化、轻量级和用户友好的接口，支持 GUI 和 API 的 RCG 平台，并辅以一个私有知识库构建器和检索调优模块。通过利用这些功能，用户可以探索 RCG 改善生成型人工智能性能的潜力，同时保持隐私标准。该工具可以在此 https URL 获取，并附有 MIT 许可。

Aug, 2023

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023

基于生成语言建模的可微检索增强方法用于电子商务查询意图分类

检索增强通过知识检索器和外部语料库提高下游模型的性能，成功应用于许多自然语言处理（NLP）任务，然而，现有的方法由于两个部分之间的不可微性而分别或异步训练检索器和下游模型，通常导致性能下降，与端到端联合训练相比。

Aug, 2023