提升生物医学 NLI 模型的健壮性：临床试验的探测方法

Feb, 2024

提升生物医学 NLI 模型的健壮性：临床试验的探测方法

Enhancing Robustness in Biomedical NLI Models: A Probing Approach for Clinical Trials

Ata Mustafa

TL;DR大型语言模型在医学领域中的应用是分析和调查临床试验的任务，本研究使用记忆探测方法研究在临床试验上训练的 Sci-five 模型，通过训练任务特定的探测器，调整模型以提高准确性，并发现探测器的大小对调整流程产生影响。

Abstract

large language models have revolutionized various fields and industries, such as Conversational AI, Content Generation, Information Retrieval, Business Intelligence, and Medical, to name a few. One major application in the field of medical is to analyze and investigate →

large language models clinical trials adversarial and robust testing mnestic probing natural logic

发现论文，激发创造

高维度干预检测：自然语言推理案例研究

本文研究探索了在自然语言推理任务中探测语言模型中自然逻辑之外的中间语义特征的方法，通过不同的干预探测方法以及限制模型表示能力的探测方法，得出了有关 NLI 模型表示和干预探测的因果推断和分析。同时，带出了干预探测研究的一些局限性和难题。

Apr, 2023

重构 - 探索法：一种对预训练语言模型进行生物医学知识探测的对比性方法

本研究采用对比探针法，探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制，并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法，其中 Contrastive-Probe 方法的性能表现优于其他方法，为此领域更合适的探针技术的发展提供了启示。

Oct, 2021

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

语言模型能成为医学知识库吗？

通过创建生物医学知识三元组的基准测试 BioLAMA，研究了预训练语言模型是否可用作具有生物医学特定领域知识的知识库。发现在近期提出的探测方法下，生物医学语言模型可以在检索生物医学知识方面取得 18.51% 的精确度，但多数预测与无主题的提示模板高度相关，因此限制了它们作为特定领域知识库的能力。

Sep, 2021

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022

提高临床试验的患者招募效率：基于提示的学习模型应用

应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数，并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法，该方法也可以应用于其他医学文本。

Apr, 2024

探索大型语言模型在生物医学概念链接中的上下文学习能力

该研究旨在探讨基于大型模型的上下文学习能力，应用检索与排名框架的方法，以实现生物医学概念链接，并在 BC5CDR 疾病实体标准化和化学实体标准化方面取得了 90% 和 94.7% 的准确率，相对于监督学习方法表现出竞争力， F1 分数有 20 个绝对点的显著提高，深入评估了在生物医学领域使用大型语言模型的优点和潜在局限性。

Jul, 2023

利用探测预测微调性能

本研究探讨了使用轻量 Probing 方法去解释 NLP 模型内在机制的方法，通过对三项探测测试的准确性精确预测了模型的调优表现，为 NLP 模型的发展提供了可能。

Oct, 2022