May, 2024

通过人工反馈评估大型语言模型:建立瑞典基准

TL;DR在人工智能领域,大型语言模型在多个应用中展示出显著的能力。然而,这些模型在资源较少的语言(如瑞典语)中的表现尚未深入研究。本研究引入了一种综合的人类基准,通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试,结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型(如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin)等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具,以改善我们对瑞典语语言模型性能的理解,并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。