FinBERT：金融通信预训练语言模型

Jun, 2020

FinBERT: A Pretrained Language Model for Financial Communications

Yi Yang, Mark Christopher Siy UY, Allen Huang

TL;DR本文旨在满足金融领域中对预训练语言模型的需求，提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型（FinBERT），在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。

Abstract

Contextual pretrained language models, such as bert (Devlin et al., 2019), have made significant breakthrough in various NLP tasks by training on large scale of unlabeled text re-sources.Financial sector also acc

pretrained language models bert financial domain sentiment classification corpora

发现论文，激发创造

FinBERT：使用预训练语言模型进行金融情感分析

本文提出了一种名为 FinBERT 的基于 BERT 预训练语言模型，用于在金融领域处理自然语言处理任务，实验结果表明它在当前两个金融情感分析数据集上的表现优于现有的机器学习方法。

Aug, 2019

德国 FinBERT：一种德语预训练语言模型

德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型，通过综合的预训练过程进行训练，利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明，在金融领域数据上，德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能，表明其捕捉领域特定细微差别的效果，该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具，有潜在的应用于金融领域的多个应用场景。

Nov, 2023

印尼金融 NLP 的领域特定语言模型后训练

我们在金融领域和印尼语言中进行了一项研究，通过对经过预训练的印尼 BERT 进行金融领域的后训练，并构建了印尼金融文本自监督语料库、印尼金融情感分析数据集和印尼金融主题分类数据集，释放了一系列适用于金融自然语言处理的 BERT 模型。我们还评估了对情感分析和主题分类任务进行领域特定后训练的有效性，发现后训练可以提高语言模型在特定领域下游任务上的效果。

Oct, 2023

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019

BBT-Fin: 中国金融领域预训练语言模型、语料库和基准的全面构建

介绍了基于 T5 模型的新型 BBT-FinT5 中文金融预训练语言模型，同时构建了大规模金融语料库 BBT-FinCorpus 并提出了中文金融语言理解与生成评估基准 BBT-CFLEB 以促进金融领域自然语言处理研究。

Feb, 2023

BioBERT：用于生物医学文本挖掘的预训练生物医学语言表示模型

本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘，并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘，该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。

Jan, 2019

FinBERT-MRC：利用 BERT 在机器阅读理解范式下的金融命名实体识别

通过对金融文本信息提取的困难进行分析，利用机器阅读理解方法，设计实现了一种新的模型 ——FinBERT-MRC，能更好的提取目标实体和信息。应用于华语和商业数据集，实验结果表明 FinBERT-MRC 模型相比 BiLSTM-CRF、BERT-Tagger、BERT-CRF 等序列标注模型中的 F1 值平均增加了 3.94% 至 0.89%。

May, 2022

金融情绪分析的预训练大型语言模型

金融情感分析是将金融文本内容分类为情感类别（如积极、消极和中性）。本文聚焦于金融新闻标题的分类，通过利用预训练的大型语言模型以及监督微调技术，实现在少量训练样本情况下显著超越之前最先进的算法。

Jan, 2024

探索语料多样性对金融预训练语言模型的影响

过去几年中，已经提出了各种领域特定的预训练语言模型（PLMs），并在生物医学、科学和临床领域等专业领域表现优于通用领域的 PLMs。此外，由于财务数据分析的经济影响巨大，金融 PLMs 也受到了研究的关注。然而，我们发现金融 PLMs 在预训练过程中未使用足够多样化的金融数据。这种缺乏多样化训练数据导致其泛化性能不佳，导致通用 PLMs（包括 BERT）在许多下游任务上通常胜过金融 PLMs。为了解决这个问题，我们收集了广泛的金融语料库，并在这些多样化的数据集上训练了金融语言模型（FiLM）。我们的实验结果证实，FiLM 不仅在现有金融 PLMs 上表现出色，还在通用领域 PLMs 上表现优异。此外，我们提供了实证证据，即这种改进甚至适用于未见过的语料库组。

Oct, 2023

BERT 用于芬兰语的多语言处理

本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究，特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同，本文侧重于针对冷门语言芬兰语的研究，探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较，实验结果表明后者的表现较好，成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。

Dec, 2019