破解代码：在印度尼西亚真实职业考试中的多领域大语言模型评估

Sep, 2024

破解代码：在印度尼西亚真实职业考试中的多领域大语言模型评估

Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

Fajri Koto

TL;DR本研究解决了当前大语言模型评估未能有效反映真实职业需求的问题。我们提出了IndoCareer数据集，包含8,834道多项选择题，用于评估印度尼西亚各行业的职业和专业认证考试。同时，我们发现这些模型在具有强地方背景的领域（如保险和金融）表现不佳，该研究对模型评估方法的稳定性提出了新见解。

Abstract

While knowledge evaluation in Large Language Models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a →

发现论文，激发创造

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用FinEval基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有GPT-4在不同提示设置下实现了接近70%的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

印尼的大型语言模型只能通过小学考试：基于IndoMMLU的综合测试

通过收集印尼的基础学校到大学入学考试的一系列考题，我们评估了大型语言模型是否能够通过这些考试，结果表明GPT-3.5仅能通过印尼的小学水平，并且对印尼的本地语言和文化了解有限，而诸如BLOOMZ和Falcon等较小的模型则无法通过这些考试。

Oct, 2023

OccuQuest: 减少专有职业偏见，让大型语言模型更具包容性

存在职业偏见的现有指导调整数据集限制了指导调整型大语言模型在特定领域的从业者的职业问题中生成有用的回应，为了缓解这个问题并推动包含各种职业的大语言模型的发展，我们创建了一个名为OccuQuest的指导调整数据集，包括超过1,000个职业在内的110,000多个提示完成对以及30,000多个对话，通过与三个常用数据集(Dolly、ShareGPT和WizardLM)进行比较，我们观察到OccuQuest在职业分布方面更加平衡，此外，我们还组装了三个用于综合评估的测试集，一个覆盖25个职业类别的occu-test测试集，一个聚焦于房地产的estate测试集和一个包含来自Quora的实际问题的occu-quora测试集，然后我们在OccuQuest上对LLaMA进行微调，得到OccuLLaMA，在GPT-4和人工评估中，OccuLLaMA在专业问题上明显优于现有的LLaMA变体(Vicuna、Tulu和WizardLM)，值得注意的是，在occu-quora测试集上，OccuLLaMA对WizardLM的胜率高达86.4%。

Oct, 2023

LLMEval：大型语言模型评估初探

最近，大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法，比较了各种标准和评分系统，在多个任务和测试中使用了不同的评估者和评分方法，提出了一个新的数据集LLMEval，并对20个大型语言模型进行了评估，得出了10个结论，为将来的语言模型评估提供了一些启示。

Dec, 2023

LLM 中能否生成与文化相关的常识问答数据？印尼文和巽他语案例研究

使用大型语言模型生成问题回答数据集，尤其是针对低资源语言，存在领域知识和文化细微差别的困难；实验证明最佳的大型语言模型GPT-4 Turbo能够生成具备充分知识的印度尼西亚语问题，但在苏丹尼斯语上表现欠佳，凸显中资源语言与低资源语言之间的性能差异；此外，我们对各种大型语言模型在生成数据集上进行基准测试，结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。

Feb, 2024

LHMKE：用于中文大语言模型的大规模综合多学科知识评估基准

LHMKE是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题，涵盖30个学科的75个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估，并比较了它们在不同学科的性能。通过深入分析，我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明，LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。

Mar, 2024

UnibucLLM: 利用语言模型自动预测多项选择题的难度和回答时间

本研究通过大型语言模型（LLM）的数据增强方法，预测BEA 2024共享任务中退休的USMLE多项选择题（MCQs）的题目难度和答题时间。我们的方法是通过从零样本LLM（Falcon，Meditron，Mistral）中添加答案来增强数据集，并使用基于六种不同特征组合的变压器模型。结果表明，预测问题的难度更具挑战性。值得注意的是，我们表现最佳的方法始终包括问题文本，并受益于LLM答案的多样性，突显了LLM在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。

Apr, 2024

TurkishMMLU：测量土耳其语的大规模多任务语言理解

通过引入第一个多任务、多项选择土耳其问答基准测试 TurkishMMLU，评估了大型语言模型对土耳其语的理解能力。该基准测试包括来自土耳其高中教育课程的9个不同科目的10,000多个问题，通过对超过20种语言模型进行深入评估，提供了对当前语言模型在土耳其能力和局限性的详细分析。

Jul, 2024

基于大型语言模型的KemenkeuGPT：利用印度尼西亚政府财务数据和法规提升决策能力

本研究针对印度尼西亚政府财务数据和法规的复杂性和动态性对决策造成的挑战，探索了大型语言模型（LLMs）的应用。通过迭代开发KemenkeuGPT，结合Retrieval-Augmented Generation（RAG）技术，研究发现该模型的准确性从35%提高到61%，显示出其作为决策工具的潜力，有望显著提升基于证据的政策制定和公共服务。

Jul, 2024