FinBERT:金融通信预训练语言模型
本文提出了一种名为 FinBERT 的基于 BERT 预训练语言模型,用于在金融领域处理自然语言处理任务,实验结果表明它在当前两个金融情感分析数据集上的表现优于现有的机器学习方法。
Aug, 2019
德国 FinBERT 是一种专门针对金融文本数据的新型预训练德语语言模型,通过综合的预训练过程进行训练,利用包括德国公司财务报告、临时公告和新闻在内的大量语料库。评估结果表明,在金融领域数据上,德国 FinBERT 在情绪预测、主题识别和问答等下游任务中表现出了改进的性能,表明其捕捉领域特定细微差别的效果,该研究认为德国 FinBERT 有望成为金融文本分析中有价值的工具,有潜在的应用于金融领域的多个应用场景。
Nov, 2023
我们在金融领域和印尼语言中进行了一项研究,通过对经过预训练的印尼 BERT 进行金融领域的后训练,并构建了印尼金融文本自监督语料库、印尼金融情感分析数据集和印尼金融主题分类数据集,释放了一系列适用于金融自然语言处理的 BERT 模型。我们还评估了对情感分析和主题分类任务进行领域特定后训练的有效性,发现后训练可以提高语言模型在特定领域下游任务上的效果。
Oct, 2023
SciBERT 是一种无监督预训练的基于 BERT 的语言模型,用于解决获取高质量、大规模标注科学数据的难题,并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。
Mar, 2019
介绍了基于 T5 模型的新型 BBT-FinT5 中文金融预训练语言模型,同时构建了大规模金融语料库 BBT-FinCorpus 并提出了中文金融语言理解与生成评估基准 BBT-CFLEB 以促进金融领域自然语言处理研究。
Feb, 2023
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
通过对金融文本信息提取的困难进行分析,利用机器阅读理解方法,设计实现了一种新的模型 ——FinBERT-MRC,能更好的提取目标实体和信息。应用于华语和商业数据集,实验结果表明 FinBERT-MRC 模型相比 BiLSTM-CRF、BERT-Tagger、BERT-CRF 等序列标注模型中的 F1 值平均增加了 3.94% 至 0.89%。
May, 2022
金融情感分析是将金融文本内容分类为情感类别(如积极、消极和中性)。本文聚焦于金融新闻标题的分类,通过利用预训练的大型语言模型以及监督微调技术,实现在少量训练样本情况下显著超越之前最先进的算法。
Jan, 2024
过去几年中,已经提出了各种领域特定的预训练语言模型(PLMs),并在生物医学、科学和临床领域等专业领域表现优于通用领域的 PLMs。此外,由于财务数据分析的经济影响巨大,金融 PLMs 也受到了研究的关注。然而,我们发现金融 PLMs 在预训练过程中未使用足够多样化的金融数据。这种缺乏多样化训练数据导致其泛化性能不佳,导致通用 PLMs(包括 BERT)在许多下游任务上通常胜过金融 PLMs。为了解决这个问题,我们收集了广泛的金融语料库,并在这些多样化的数据集上训练了金融语言模型(FiLM)。我们的实验结果证实,FiLM 不仅在现有金融 PLMs 上表现出色,还在通用领域 PLMs 上表现优异。此外,我们提供了实证证据,即这种改进甚至适用于未见过的语料库组。
Oct, 2023
本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究,特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同,本文侧重于针对冷门语言芬兰语的研究,探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较,实验结果表明后者的表现较好,成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。
Dec, 2019