BERT 与 GPT 在金融工程中的比较

Apr, 2024

BERT vs GPT for financial engineering

Edward Sharkey, Philip Treleaven

TL;DR该研究对多个 Transformer 模型进行基准测试，展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现，在这一任务中，微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型，它在域特定的 BERT 训练模型（如 FinBERT）的性能上表现更好。综上所述，BERT 模型可能不会成为下一个 XGboost，但对于需要融合可解释性和准确性的金融工程任务来说，它代表了一个有趣的选择。

Abstract

The paper benchmarks several transformer models [4], to show how these models can judge sentiment from a news event. This signal can then be used for downstream modelling and signal identification for commodity trading. We find that fine-tuned →

transformer models bert gpt copbert financial engineering tasks

发现论文，激发创造

BioGPT：用于生物医学文本生成和挖掘的生成式预训练变形器

本文提出了一种基于大规模生物医学文献预训练的领域特定生成 Transfomer 语言模型 ——BioGPT，用于生物医学领域的自然语言处理任务，结果表明 BioGPT-Large 在 PubMedQA 任务上取得了 81.0% 的准确率，并提高了 BC5CDR、KD-DTI 和 DDI 关系提取任务的 F1 得分。

Oct, 2022

基于 GPT 和 BERT 模型在生物医学文本中识别蛋白质相互作用的评估

该论文研究了使用 GPT 和 BERT 模型在生物医学文本中检测蛋白质相互作用，结果发现 GPT 模型能够在生物医学文献挖掘任务中有效地检测 PPI，并且具有潜力。

Mar, 2023

BERT 和 GPT-2 神经网络架构迁移对金融情感分析的敏感性分析

本文研究了利用预训练模型进行微调时，模型的表现和参数的敏感性，通过实验发现 BERT 模型对于微调的随机性十分敏感，而 GPT-2 则更加稳定，同时也发现 GPT-2 和 BERT 的前几层包含了重要的单词模式信息需要进行保留。

Jul, 2022

GPT 也能理解

利用可训练的连续提示嵌入 (P-tuning) 方法，在自然语言理解 (NLU) 任务上，GPT 在不需要额外文本的情况下，能够比同等大小的 BERT 表现更好或者相当，并且在 LAMA 基准测试中恢复了 64％的世界知识，同时在监督学习中，GPT 表现出类似大小的 BERT 相似或更好的性能。此外，该方法还显著减少了对提示工程的需求，并在少样本 SuperGlue 基准测试中优于现有最先进方法。

Mar, 2021

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

GPT 模型在机器翻译中有多好？一项全面评估

本研究对 GPT 模型在机器翻译方面的表现进行了全面评估，涵盖了许多方面，如与最新研究和商业系统的不同 GPT 模型的质量比较，提示策略的效果，域转换和文档级翻译的鲁棒性。实验覆盖了 18 个不同的翻译方向，包括高资源和低资源语言以及非以英语为中心的翻译，评估了三个 GPT 模型：ChatGPT，GPT3.5 (text-davinci-003) 和 text-davinci-002。实验结果表明，对于高资源语言，GPT 模型达到了极具竞争力的翻译质量，而对于低资源语言的能力却有限，同时也证明了混合方法（将 GPT 模型与其他翻译系统相结合）可以进一步提高翻译质量。我们进行了全面的分析和人工评估，以进一步了解 GPT 翻译的特点。我们希望我们的论文为研究人员和实践者提供有价值的见解，并有助于更好地理解 GPT 模型在翻译方面的潜力和局限性。

Feb, 2023

CryptoGPT：7B 模型在实时金融新闻分析和分类任务中与 GPT-4 匹敌

使用 CryptoGPT 对金融新闻进行分析，提供全面的市场分析，通过半自动标注和与其他 LLM 进行比较，寻找在保护数据、控制成本、维持更好分析质量之间的平衡。

Jun, 2024

SentimentGPT：利用 GPT 进行高级情感分析及其与当前机器学习的区别

本研究以简单明了的方式，对各种生成预训练变压器（GPT）方法在情感分析中的应用进行了全面的探讨，特别是在 SemEval 2017 数据集的第四项任务中。通过三种主要策略：1）使用先进的 GPT-3.5 Turbo 进行提示工程，2）对 GPT 模型进行微调，3）一种创新的嵌入式分类方法。研究结果详细比较了这些策略和单独的 GPT 模型，揭示了它们的独特优势和潜在限制。此外，该研究将这些基于 GPT 的方法与其他同时使用该数据集的高性能模型进行了比较，结果显示 GPT 方法在预测性能方面具有显著优越性，F1 分数超过现有技术水平 22% 以上。该研究还探讨了情感分析任务中的常见挑战，如理解上下文和检测讽刺，强调了 GPT 模型在有效应对这些复杂性方面的增强能力。这些发现共同突显了 GPT 模型在情感分析中的巨大潜力，并为该领域的未来研究铺平了道路。

Jul, 2023

从文本到转型：大型语言模型多功能性的全面评述

这项开创性的研究探讨了大型语言模型（LLMs）如生成式预训练变换器（GPT）和双向编码器表示来自变换器（BERT）在技术、金融、医疗保健、教育等各个领域的广泛应用。尽管它们在自然语言处理（NLP）方面已经展现出卓越的能力，但这些 LLMs 在健身、整体福祉、城市规划、气候建模以及灾害管理等领域尚未得到系统性的研究，本综述除了提供对 LLMs 在不同领域的广泛应用进行全面分析外，还揭示了 LLMs 潜力尚未被利用的研究空白和领域。这项研究发现了 LLMs 在健身福祉、城市规划、气候建模和灾害响应等领域留下印记的创新方式，可以激发未来在这些领域的研究和应用。

Feb, 2024

基于 Transformer 的自然语言处理模型微调鲁棒性研究

本文对三种基于 Transformer 的预训练语言模型（BERT、GPT-2 和 T5）进行了鲁棒性测试，并比较了它们在多种输入扰动下的性能表现。同时，使用 CKA 和 STIR 两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中，GPT-2 表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性，但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于 Transformer 的模型的扰动特异性弱点提供了宝贵的见解。

May, 2023