基于 Transformer 的澳大利亚建筑供应链风险管理中的命名实体识别
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
本研究提出一种基于 Transformer 和对抗适应的 NER 方法,用于针对资料较少的语言如法语中的实体识别问题。实验结果表明,该方法在三个标注数据集上的表现优于相应的未适应模型。
Dec, 2022
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022
本文提出一种多任务 Transformer 模型,该模型将实体边界检测任务整合到命名实体识别任务中,通过关系分类来实现实体边界检测,并采用外部知识库和自注意力及交叉注意力机制来提高解码时实体类型映射的准确性。在多个实验数据集上的实验结果表明,该方法显著提高了生成型 NER 模型的性能。
Mar, 2023
该研究通过研究基于 Transformer 的模型及其在命名实体识别任务中的有效性,探讨了数据表示策略,包括单句、多句和上下文,并分析了使用单一策略训练模型可能导致在不同数据表示上表现不佳的问题。为了解决这个局限性,该研究提出了一种结合训练过程,利用这三种策略来提高模型的稳定性和适应性。该方法的结果在四种语言(英语、波兰语、捷克语和德语)以及各种数据集上进行了展示和讨论,证明了这种结合策略的有效性。
Jun, 2024
该文是关于基于 Transformer 的自然语言处理(NLP)应用到电子病历(EMR)领域的最新研究进展的系统文献综述,涵盖了业务问题、NLP 任务、模型和技术、数据集可用性、建模再现性、语言和交换格式等方面。通过分析当前研究的局限性和未来研究建议,该文提供了有关该领域 Transformer-based 方法的综合评估。
Apr, 2023
本文介绍了一种建立在双向编码器变换器(BERT)架构上的命名实体识别(NER)模型的方法,具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性,使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。
Feb, 2024
使用多语言 Transformer XLM-RoBERTa 的上下文化表示来处理多语言和混合编码查询的复杂 NER 任务,通过 CRF 的标记分类层和拾取来捕获命名实体范围和使用自我培训机制从大型未标记数据集生成弱标注数据。在 Multilingual Complex Named Entity Recognition 的共享任务中,我们的提出的系统在多语言和混合编码 MultiCoNER 的追踪中分别排名第 6 和第 8。
Apr, 2022
本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统,取得了 72.50% 的 F1 得分,同时讨论了通过实体链接进行数据增强的方法。
Feb, 2022
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023