BERT 在生物医学文本挖掘中的多任务学习的实证研究

May, 2020

BERT 在生物医学文本挖掘中的多任务学习的实证研究

An Empirical Study of Multi-Task Learning on BERT for Biomedical Text Mining

Yifan Peng, Qingyu Chen, Zhiyong Lu

TL;DR研究了一种多任务学习模型，应用于生物医学和临床自然语言处理任务中，结果表明该模型相比于目前的 transformer 模型，在生物医学和临床领域的表现分别提高了 2.0% 和 1.3%，并进一步展示了任务间的相互关系。

Abstract

multi-task learning (MTL) has achieved remarkable success in natural language processing applications. In this work, we study a multi-task learning model with multiple decoders on varieties of →

multi-task learning biomedical clinical natural language processing transformer models

发现论文，激发创造

MT-Clinical BERT: 使用多任务学习扩展临床信息抽取能力的 BERT 模型

采用 Multitask-Clinical BERT 模型，可同时执行包括实体抽取、PHI 识别、语言蕴含和相似性在内的 8 种临床任务，极大减轻了信息提取系统的工程负担且表现出色。

Apr, 2020

序列标注的多任务学习：实证研究

通过研究 11 个序列标注任务中的三种多任务学习方法，我们发现在大约 50% 的情况下，联合学习所有 11 个任务可以改善独立学习或成对学习任务的效果。我们还展示了成对多任务学习可以告诉我们哪些任务可以互惠，哪些任务在联合学习时可以受益。我们的一种多任务学习方法产生的任务嵌入还揭示了语义任务和语法任务的自然聚类。我们的研究打开了在自然语言处理中进一步利用多任务学习的大门。

Aug, 2018

2020 年代自然语言处理的多任务学习：我们将走向何方？

本文主要综述了自然语言处理领域中最近的多任务学习 (MTL) 的研究进展，重点关注深度学习、迁移学习和预训练等相关方向的最新成果及所面临的挑战。

Jul, 2020

多语言神经机器翻译的多任务学习

提出了一种基于多任务学习的框架，通过对单语数据的两个去噪任务和双语数据的翻译任务联合训练模型，显著提高了多语言 NMT 系统的翻译质量，并在零样本学习的情况下证明了该方法的有效性。

Oct, 2020

多任务学习下的上下文感知神经机器翻译案例分析

探讨了使用多任务学习和多重编码器方法在文档级神经机器翻译中建模上下文编码的观察，证明了在资源匮乏的情况下，该方法比串联和多重编码器模型表现更好，并对选择上下文敏感。

Jul, 2024

基于特定领域 ALBERT 的生物医学自然语言处理任务基准测试

通过适应生物医学领域 (PubMed、PubMed Central 和 MIMIC-III 数据集) 并微调了 20 个基准数据集上的 6 个任务，我们提出了 BioALBERT，并展示了它在大部分任务中优于现有技术。

Jul, 2021

有条件自适应多任务学习：减少参数和数据来提高自然语言处理的迁移学习能力

通过使用新的 Transformer 架构，包括一种新的条件注意机制以及一组任务条件模块，旨在促进权重共享，我们实现了更有效的参数共享，并通过保持预训练模型的一半权重来缓解遗忘。同时，我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他 BERT Large 方法在 GLUE 上相比，我们的八任务模型超过了其他 Adapter 方法 2.8％，而我们的 24 任务模型在使用 MTL 和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在 26 个 NLP 任务中竞争，并在一些测试和开发集上取得了最先进的结果。

Sep, 2020

多任务序列到序列学习

本文探讨了序列到序列模型下的多任务学习问题，主要包括共享编码器和解码器的三种设置，结果表明使用少量的解析和图像标题数据训练模型可以有效地提高翻译质量并在一些测试中实现新的最优结果，并揭示了自编码器和跳越思考等两种无监督学习目标在多任务学习上的有趣属性。

Nov, 2015

生物医学自然语言处理中的迁移学习：对于十个基准数据集上 BERT 和 ELMo 的评估

本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark，该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线，并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。

Jun, 2019

一种灵活的 BERT 多任务模型服务

本文提出一种基于 BERT 的多任务框架，采用部分微调，单任务模型知识蒸馏和模型压缩技术，使得各个子任务的共享部分得以共用，从而实现了低成本、高性能的实时任务处理。该框架在小米智能语音助手中得到了应用，整个系统处理成本降低了 86%。

Jul, 2021