何时进行预训练有用？评估自监督学习在法律和 CaseHOLD 数据集上的表现

Apr, 2021

何时进行预训练有用？评估自监督学习在法律和 CaseHOLD 数据集上的表现

When Does Pretraining Help? Assessing Self-Supervised Learning for Law and the CaseHOLD Dataset

Lucia Zheng, Neel Guha, Brandon R. Anderson, Peter Henderson, Daniel E. Ho

TL;DR本文介绍了一个新的 NLP 数据集 CaseHOLD，用于测试法律方面的 NLP 任务，同时指出在某些特定的领域语料的预训练条件下，Transformer-based architectures 的性能可能比一般的预训练模型更优秀，我们的发现有助于指导研究人员何时需要进行域预训练。

Abstract

While self-supervised learning has made rapid advances in natural language processing, it remains unclear when researchers should engage in resource-intensive domain-specific pretraining (domain pretraining). The

self-supervised learning domain pretraining legal nlp casehold transformer architecture

发现论文，激发创造

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

隐私保护模型用于法律自然语言处理

本文阐述了利用不同隐私保护训练配置扩大自监督学习 Transformer 模型的规模，提供 Domain Adaptation 和 Privacy Protection，实现在法律领域 NLP 下的无监督超大规模训练的技术，这在之前尚未得到解决。

Nov, 2022

利用领域预训练和神经网络增强法律论证挖掘

本文对传统词嵌入模型与 BERT 模型在人权法庭裁决文本的法条分析任务中的表现进行了比较，实验证明领域特定的 BERT 模型有很大的潜力，而传统的词嵌入模型在与神经网络层结合后也能表现出很强的性能。

Feb, 2022

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

LEGAL-BERT：法学院里的大毛怪

本文研究了 BERT 在法律领域中的适应性指南并提出使用原始 BERT、在领域特定语料库上进行追加预训练的 BERT 和在领域特定语料库上从头开始预训练的 BERT 三种策略。并针对下游任务进行更广泛的超参数搜索空间，并发布了 LEGAL-BERT，用于辅助法律 NLP 研究、计算法律和法律技术应用。

Oct, 2020

针对生物医学自然语言处理的领域特定语言模型预训练

本文通过编制全面的生物医学 NLP 基准测试集，证明了在丰富的未标记文本的领域中，从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型，能够显著提高生物医学 NLP 任务的效果，并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型，并创建了一个包含我们的 BLURB 基准测试的排行榜。

Jul, 2020

预训练数据的成本效益选择：在社交媒体上预训练 BERT 的案例研究

本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练，通过相似度计算筛选出有效的预训练数据，并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。

Oct, 2020

在土耳其临床领域利用 BERT 的力量：有限数据场景下的预训练方法

本研究旨在探讨语言资源有限情况下，各种预先培训方法对土耳其临床语言模型在涉及放射学报告的多标签分类任务中表现的影响，并通过利用有限的临床任务数据首次评估了同时进行预训练的方法。我们发现，在使用大量通用域语料库的情况下，通用土耳其 BERT 模型和 TurkRadBERT-task v1 表现最佳。此外，本研究还强调了预先训练期间领域特定词汇对于增强模型性能的重要性。

May, 2023

稳健的 wav2vec 2.0：自监督预训练中的领域漂移分析

本文探讨了语音表示的自监督学习，其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形，试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。

Apr, 2021

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020