大型语言模型的日本金融基准构建

COLINGMar, 2024

大型语言模型的日本金融基准构建

Construction of a Japanese Financial Benchmark for Large Language Models

Masanori Hirano

TL;DR本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。

Abstract

With the recent development of large language models (LLMs), models that focus on certain domains and languages have been discussed for their necessity. There is also a growing need for →

large language models domains benchmarks performance japanese and financial

发现论文，激发创造

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Apr, 2024

BloombergGPT: 金融领域的大型语言模型

本文介绍了 BloombergGPT，这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练，我们得到的模型不仅在金融任务上表现出色，还在普遍的 LLM 基准测试上得到了不错的表现，同时也解释了模型构建、训练过程和评估方法。

Mar, 2023

评估 GPT-4 和 ChatGPT 在日本医学执照考试中的表现

本文旨在评估 ChatGPT，GPT-3 和 GPT-4 在日本语言医学执照考试上的表现，并提出了当前 LLM API 的关键局限性，包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。

Mar, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Nov, 2023

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

通过持续预训练构建金融领域特定的日文大语言模型

此研究旨在通过不断预训练的方式构建一种针对日本金融领域的特定大型语言模型，并证明该模型在日本金融基准测试中的性能优于原始模型。研究表明，针对特定领域的不断预训练也对大型语言模型具有有效性。调整后的模型现已在 Hugging Face 平台上公开提供。

Apr, 2024