CLaCLab 在 SocialDisNER 的应用：使用医学词表识别西班牙语推文中的疾病实体

COLINGSep, 2022

CLaCLab 在 SocialDisNER 的应用：使用医学词表识别西班牙语推文中的疾病实体

CLaCLab at SocialDisNER: Using Medical Gazetteers for Named-Entity Recognition of Disease Mentions in Spanish Tweets

Harsh Verma, Parsa Bagherzadeh, Sabine Bergler

TL;DR该论文总结了 CLaC 团队对 SMM4H2022 任务 10 的研究，该任务涉及识别西班牙推文中提到的疾病。在将每个标记进行分类之前，该团队使用多语言 RoBERTa Large、UMLS 名录和 DISTEMIST 名录等特征对每个标记进行编码，最终获得了严格的 F1 得分为 0.869，与竞争平均值 0.675，标准偏差 0.245 和中级 0.761。

Abstract

This paper summarizes the clac submission for smm4h 2022 Task 10 which concerns the recognition of diseases mentioned in spanish tweets. B

clac smm4h 2022 disease recognition transformer encoder spanish tweets

发现论文，激发创造

ClinLinker：西班牙语临床概念提及的医学实体链接

这项研究通过使用一种新颖的双阶段流程来实现医学实体链接，该流程利用领域内适应的语言模型进行生物医学文本挖掘，从而显著提升了临床文本分析的性能。该方法在西班牙语内容的初期侧重下，在涉及异构医学术语并在原始数据子集上进行训练的复杂场景中，显著优于为同一目的设计的多语言语言模型。通过在两个不同的临床实体链接 Gold Standard 语料库（DisTEMIST（疾病）和 MedProcNER（临床程序））上进行评估，我们的结果表明，该方法在 25 个 Top-k 准确度和其他 Top-k 指标上的性能优于前期基准，DisTEMIST 上提高了 40 个点，MedProcNER 上提高了 43 个点，两者均归一化到 SNOMED-CT 代码。这些发现突显了我们的方法在处理语言特定细微差别方面的能力，并树立了一个新的实体链接基准，为提高数字医疗记录的实用性提供了一种强大工具。该系统的结果具有实际价值，既可以用于从临床记录中自动产生大规模结构化数据，也可用于全面提取和协调预定义的临床变量。

Apr, 2024

对西班牙临床文本进行症状识别的精调大型语言模型

通过使用大规模语言模型与数据结合，本研究参与了一个在西班牙医学文档中检测症状、体征和发现的任务，旨在准确识别临床报告中的症状，并在医疗保健、生物医学自然语言处理领域发挥重要作用，为临床决策支持系统的开发和医疗专业人员的诊断和治疗规划提供帮助。

Jan, 2024

运用深度学习简化社交媒体信息检索，为公共卫生研究提供服务

本研究介绍了一种基于 BERT 的命名实体识别（NER）模型，一个深度学习规范化模块以及一个半监督聚类模块构建的框架，用于从社交媒体中提取与 COVID-19 相关的症状词典，并对其进行标准化，以减少在基于社交媒体的公共卫生研究中的关键词匹配信息检索约束。

Jun, 2023

LT4SG@SMM4H24：利用预训练语言模型对儿童健康结果进行数字流行病学推断的推文分类

通过对英文推文中儿童医学疾病进行二分类，本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调，而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致，但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938，超过了基准分类器 1.18%。

Jun, 2024

当专业化有帮助时：使用汇集的上下文嵌入在西班牙语中检测化学和生物医学实体

本研究基于 PharmaCoNER 挑战任务 1，使用 BiLSTM-CRF 序列标记器和基于 FLAIR 的深度学习方法，通过构建一个新的 Spanish Health Corpus 并使用领域专用嵌入，成功提高了化学药品和药物的识别精度。

Oct, 2019

ThangDLU 在 #SMM4H 2024 的研究：用编码解码模型对儿童和青少年的社交障碍文本进行分类

本研究参与了 SMM4H 2024 研讨会的第 3 和第 5 任务，以解决推文数据中的分类挑战。通过使用预训练的编码器 - 解码器模型，如 BART-base 和 T5-small，利用迁移学习识别了给定推文的标签，并采用数据增强方法提高了模型性能。最终，在第 3 任务中获得了 0.627 的最佳 F1 分数，在第 5 任务中获得了 0.841 的最佳 F1 分数。

Apr, 2024

通过自我增强和对比学习提高社交媒体文本中的疾病检测

该研究提出了一种新的方法，将对比学习与语言模型相结合，通过自我增强方法改进模型的表示，并在与各种疾病相关的社交媒体数据集上取得了显著的改进。

Apr, 2024

COVID-19 自诊断分类：BERT 和 LightGBM 模型

我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型（BERT）与 LightGBM 模型结合取得了最高的 f1 分数为 0.94，对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。

Jan, 2024

2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

使用基于 Transformer 的多个模型对推文进行预处理，实现自动识别 COVID-19 诊断的推文，并获得高于平均值 4.1% 的 84.5% 的 F1 分数。

Nov, 2023

口语文本中的实体识别

我们研究了基于 BERT 模型的多种训练策略，旨在从口语化文本中识别出医疗领域的症状，并通过一系列实验发现了与这些训练策略相关的模型行为模式，提出了有效识别口语化文本中实体的训练策略设计原则。

Jan, 2024