波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

COLINGApr, 2024

波斯语大型语言模型基准测试：关注 ChatGPT 的初步研究

Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT

Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou...

TL;DR本文探讨了大型语言模型（LLMs）在波斯语中的有效性。研究发现，虽然 ChatGPT 和其他 LLMs 在英语中表现出色，但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究，重点评估了 GPT-3.5-turbo，同时还包括 GPT-4 和 OpenChat-3.5，以提供更全面的评估。研究结果显示，虽然 LLMs，特别是 GPT-4，在需要推理能力和对一般知识的广泛理解的任务中表现出色，但它们通常落后于针对特定任务进行细化调整的较小的预训练模型。此外，研究还观察到将测试集翻译成英语后输入 GPT-3.5 会改善其性能。这些结果突显了提升波斯语中 LLM 性能的重要潜力，这尤其值得注意，因为波斯语具有独特的字母和写作风格。

Abstract

This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remai

large language models efficacy persian language tasks benchmarking study llm performance

发现论文，激发创造

使用 ChatGPT 模型评估阿拉伯语 NLP 任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

基于预训练大型语言模型的乌尔都自然语言处理任务潜力评估

利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析，结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外，研究还发现，基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。

May, 2024

波斯思维：一个跨语言的波斯 - 英语大语言模型

通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练，我们展示了我们的方法既保留了模型的英语知识，又利用了迁移学习在不同语言之间传递任务知识的优势。

Jan, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

ChatGPT MT：高资源语言竞争力强（但对于低资源语言则不强）

使用 FLORES-200 基准测试，我们提供了首个针对 204 种语言的实验证据和机器翻译成本分析，发现 GPT 模型在某些高资源语言上接近或超过传统机器翻译模型的性能，但在低资源语言上表现一直落后于传统机器翻译，对于我们覆盖的语言中的 84.1％，ChatGPT 的翻译能力低于传统机器翻译模型水平。我们的分析表明，语言的资源水平是决定 ChatGPT 相对翻译能力的最重要特征，并且暗示 ChatGPT 在低资源语言和非洲语言上处于劣势。

Sep, 2023

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023