生物医学语言模型对次优分词具有鲁棒性

ACLJun, 2023

生物医学语言模型对次优分词具有鲁棒性

Biomedical Language Models are Robust to Sub-optimal Tokenization

Bernal Jiménez Gutiérrez, Huan Sun, Yu Su

TL;DR本研究探索了使用更准确的生物医学分词器训练生物医学语言模型是否可以提高实体表示质量，结果表明该方法并不能提高语言模型的表现。

Abstract

As opposed to general English, many concepts in biomedical terminology have been designed in recent history by biomedical professionals with the goal of being precise and concise. This is often achieved by concatenating meaningful biomedical morphemes to create new semantic units. Neve

biomedical terminology language models tokenizer entity representation quality named entity recognition

发现论文，激发创造

法语医学口罩语言模型中的 tokenization 有多重要？

深入探讨法语生物医学领域中子词标记化的复杂性，并确定可以进行进一步改进的领域，同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法，并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。

Feb, 2024

UMLS-KGI-BERT: 基于数据中心的转换器中的生物医学实体识别知识集成

通过从 UMLS 中提取文本序列，该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献，从而将基于图的学习目标与掩码语言预训练相结合，初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。

Jul, 2023

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021

BIOptimus：使用课程学习预训练最佳生物医学语言模型于命名实体识别

本研究通过比较不同的预训练方法，包括从头开始预训练生物医学语言模型和在连续环境中预训练模型，并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重，加快预训练阶段并提高命名实体识别性能；此外，我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响；最终，我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus)，在多项生物医学命名实体识别任务中创造了新的技术水平

Aug, 2023

从语言模型中探测生物医学嵌入

本文研究使用预训练的语言模型作为固定的特征提取器，并限制下游任务模型没有额外的序列建模层，探索在域内训练后的上下文词嵌入中携带的附加信息。结果发现，BioELMo 在编码实体类型和关系信息方面优于 BioBERT。

Apr, 2019

针对临床和生物医学文本理解的德语语言模型的综合研究

本文探讨了如何通过在特定领域数据上进行连续预训练，来适应领域特定需求，以提高医学自然语言处理任务的性能。实验证明，通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。

Apr, 2024

生物医学领域的预训练语言模型：一项系统调查

本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用，提出了现有生物医学 PLMs 的分类及其在下游任务中的应用，讨论了其限制与未来发展趋势。

Oct, 2021

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

语言模型能成为医学知识库吗？

通过创建生物医学知识三元组的基准测试 BioLAMA，研究了预训练语言模型是否可用作具有生物医学特定领域知识的知识库。发现在近期提出的探测方法下，生物医学语言模型可以在检索生物医学知识方面取得 18.51% 的精确度，但多数预测与无主题的提示模板高度相关，因此限制了它们作为特定领域知识库的能力。

Sep, 2021