Labrador: 探索实验室数据的被屏蔽语言模型的极限

Dec, 2023

Labrador: 探索实验室数据的被屏蔽语言模型的极限

Labrador: Exploring the Limits of Masked Language Modeling for Laboratory Data

David R. Bellamy, Bhawesh Kumar, Cindy Wang, Andrew Beam

TL;DR我们介绍了一种名为 Labrador 的预训练 Transformers 模型，用于实验室数据的分析，并在预测各种下游结果任务中对 Labrador 和 BERT 进行了评估。两种模型在预训练任务上表现出了熟练的水平，但在下游的有监督任务中，两者都无法持续胜过 XGBoost。我们的剖析研究揭示了对于 BERT 而言，迁移学习的效果有限，并且 Labrador 仅取得了较小的成功。我们探索了迁移学习失败的原因，并认为不能仅通过实验室数据来充分表征每个患者的数据生成过程，其中还有其他因素。我们鼓励未来的研究将重点放在多个电子健康记录数据类别的联合建模上，并在评估中包括基于树的基准模型。

Abstract

In this work we introduce labrador, a pre-trained transformer model for laboratory data. →

labrador pre-trained transformer model laboratory data downstream outcome prediction tasks transfer learning

发现论文，激发创造

针对实验室协议的领域特定 BERT 表示进行命名实体识别

通过使用 Bio-Bert 模型进行实体标记，我们的模型在医疗领域的数据集上取得显著的性能提升。

Dec, 2020

PathologyBERT -- 面向病理领域的预训练与新 Transformer 语言模型比较研究

介绍了 PathologyBERT - 一个采用 347,173 个组织病理学报告进行预训练的蒙面语言模型，以支持病理学领域的文本挖掘，并与其他模型进行了性能比较，以提高肿瘤识别和自然语言理解等方面的性能。

May, 2022

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

提出了多个增强的解码器设计，并引入了 DrBERT（经过解码器优化的 BERT）作为一种新方法进行模型训练，通过微调对原始 BERT 模型的解码器进行改进，有效提高了模型性能而不增加推理时间和资源使用。

Jan, 2024

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

Med-BERT: 基于大规模结构化电子病历的预训练上下文化嵌入，用于疾病预测

Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型，适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测，表明 Med-BERT 具有较高的准确性和泛化性能，可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。

May, 2020

面向多语言掩码语言建模的大规模 Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型，这两个新模型分别称为 XLM-R XL 和 XLM-R XXL，在 XNLI 中的平均准确率比 XLM-R 高 1.8％和 2.4％，同时处理了 99 种以上的语言，优于 RoBERTa-Large 模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021

UMLS-KGI-BERT: 基于数据中心的转换器中的生物医学实体识别知识集成

通过从 UMLS 中提取文本序列，该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献，从而将基于图的学习目标与掩码语言预训练相结合，初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。

Jul, 2023

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

面向临床自然语言处理的轻量级 Transformer

通过知识蒸馏和不断学习等技术，本研究着眼于发展处理临床文本的高效轻量级语言模型，与生物医学文本数据训练的大型模型相比，这些模型效果相当甚至更好，并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。

Feb, 2023

经过 1 亿个单词的训练，BERT 依然保持着良好状态：BERT 遇见英国国家语料库

本文探讨了小规模训练对于掩码语言模型的影响，使用英国国家语料库作为语料来源，进行了预训练和性能测试，并提出了优化后的 LTG-BERT 模型结构，为掩码语言模型的发展提供了新的思路。

Mar, 2023