ChatGPT 是否是金融专家？对语言模型在金融自然语言处理的评估

EMNLPOct, 2023

ChatGPT 是否是金融专家？对语言模型在金融自然语言处理的评估

Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing

Yue Guo, Zian Xu, Yi Yang

TL;DR使用 FinLMEval 框架评估了大型语言模型在金融领域中的能力，并发现虽然一些只有解码器的 LLM 在大多数金融任务中表现出色，尤其是通过零 - shot 提示，但它们在处理专有数据集时通常落后于经过精调的专家模型。该研究为在金融领域构建更高级别的 LLMs 提供了基础评估。

Abstract

The emergence of large language models (LLMs), such as ChatGPT, has revolutionized general natural language preprocessing (NLP) tasks. However, their expertise in the financial domain lacks a comprehensive evaluation. To assess the ability of LLMs to solve financial NLP tasks, we prese

large language models financial language model evaluation encoder-only language models decoder-only language models proprietary datasets

发现论文，激发创造

GPT 模型能否成为金融分析师？对 ChatGPT 和 GPT-4 在模拟 CFA 考试中的评估

大型语言模型在自然语言处理任务中表现出色，我们通过对 Chartered Financial Analyst (CFA) 考试模拟试题的全面评估，考察 ChatGPT 和 GPT-4 在金融分析方面的理解能力，包括零编程、连续思路和少量编程等场景的性能评估和限制，进而估计它们通过 CFA 考试的可能性，并提出改进策略以增强大型语言模型在金融领域的适应性。我们希望这项研究为继续改进金融推理方面的大型语言模型奠定了基础。

Oct, 2023

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

用 LLM 彻底改革金融：应用和洞见概述

最近几年，大型语言模型（LLMs）如 ChatGPT 取得了显著的进展，并在各个领域得到了应用。这些模型建立在 Transformer 架构基础上，通过广泛的数据集训练，能够有效地理解和生成人类语言。在金融领域，LLMs 的部署正在迅速发展。它们被用于自动化财务报告生成、预测市场趋势、分析投资者情绪和提供个性化的财务建议。利用其自然语言处理能力，LLMs 可以从海量金融数据中提取关键见解，帮助机构做出明智的投资决策，提高运营效率和客户满意度。本研究全面介绍了 LLMs 在各种金融任务中的应用。此外，我们通过自然语言指令对多个金融任务进行了全面测试。我们的研究结果表明，GPT-4 在各种金融任务中能够有效地遵循指令。这项对 LLMs 在金融领域的调查和评估旨在加深金融从业者和 LLM 研究人员对 LLMs 在金融中的作用的理解，发现新的研究和应用前景，并强调如何利用这些技术来解决金融行业的实际挑战。

Jan, 2024

ChatGPT 和 GPT-4 是否能够作为金融文本分析的通用求解器？对几个典型任务的考察

本研究旨在探讨 ChatGPT 和 GPT-4 在金融文本分析中的应用潜力，发现它们在数字推理任务上表现出色，但在需要领域特定知识的任务（如金融命名实体识别和情感分析）上表现糟糕。该研究比较了这两个模型与业界最佳现成模型和领域特定生成模型的优劣，希望为理解现有模型的能力和促进进一步改进提供基础研究。

May, 2023

BloombergGPT: 金融领域的大型语言模型

本文介绍了 BloombergGPT，这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练，我们得到的模型不仅在金融任务上表现出色，还在普遍的 LLM 基准测试上得到了不错的表现，同时也解释了模型构建、训练过程和评估方法。

Mar, 2023

ChatGPT 的评价可信吗？

本文探讨了 ChatGPT 在不同任务中的表现评估问题，特别是针对数据污染问题，以 stance detection 为例，同时讨论了如何在当前大型、连续训练语言模型的时代保证公平的模型评估。

Mar, 2023

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

使用 ChatGPT 改进金融领域的情感分析

使用大型语言模型 ChatGPT 3.5 进行金融情感分析，特别关注外汇市场，通过零样本提示方法的探究，比起金融文本情感分析模型 FinBERT，ChatGPT 表现出了大约 35% 的情感分类性能提升以及 36% 更高的与市场回报的相关性，强调了提示工程在零样本上下文中的重要性，突显了 ChatGPT 在金融应用中显著提升情感分析的潜力，并分享所使用的数据集以促进该领域的进一步研究与发展。

Aug, 2023

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023