大型语言模型的日本金融基准构建
我们提出了基于 GPT-4 的高效自指导方法,通过翻译少量英语指令并进行修订,为日语构建高质量的指令数据和评估基准,并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。
Mar, 2024
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 GPT-3.5-turbo,同时还包括 GPT-4 和 OpenChat-3.5,以提供更全面的评估。研究结果显示,虽然 LLMs,特别是 GPT-4,在需要推理能力和对一般知识的广泛理解的任务中表现出色,但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外,研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力,这尤其值得注意,因为波斯语具有独特的字母和写作风格。
Apr, 2024
本文介绍了 BloombergGPT, 这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练,我们得到的模型不仅在金融任务上表现出色,还在普遍的 LLM 基准测试上得到了不错的表现,同时也解释了模型构建、训练过程和评估方法。
Mar, 2023
本文旨在评估 ChatGPT,GPT-3 和 GPT-4 在日本语言医学执照考试上的表现,并提出了当前 LLM API 的关键局限性,包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。
Mar, 2023
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现,研究发现这两个模型在多个任务上超过了 Llama 模型,尤其是在资源稀缺的语言中,其中 GPT-4 在更多的数据集上优于 PaLM2。然而,为了准确评估非英语语言上 LLM 的性能,我们需要解决数据污染等问题。
Nov, 2023
通过引入 FinBen 综合开放式评估基准,本文对 15 个具有代表性的 LLMs 进行评估,揭示了它们在金融领域的优势和局限性,找出了需要有针对性增强的方面。
Feb, 2024
评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试,利用现有的英文数据集,并专门针对评估传统汉语语言模型进行调整,包括问答、摘要、分类和表格理解等任务。评估结果表明,我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究,我们已经开源了我们的基准测试并开放了模型供试用。
Sep, 2023
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
此研究旨在通过不断预训练的方式构建一种针对日本金融领域的特定大型语言模型,并证明该模型在日本金融基准测试中的性能优于原始模型。研究表明,针对特定领域的不断预训练也对大型语言模型具有有效性。调整后的模型现已在 Hugging Face 平台上公开提供。
Apr, 2024