跳动的节拍：64 种语言中的 LLM 社交语用理解研究

EMNLPOct, 2023

跳动的节拍：64 种语言中的 LLM 社交语用理解研究

The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages

Chiyu Zhang, Khai Duy Doan, Qisheng Liao, Muhammad Abdul-Mageed

TL;DR通过对跨语言社会语用含义 (SM) 的多语言预训练语言模型和指导调整的 LLM（如 BLOOMZ 和 ChatGPT）在多语种基准测试 SPARROW 上的性能评估，发现开放源代码的指导调整型 LLM 仍然在各种语言中难以理解 SM，在某些情况下接近随机基线，ChatGPT 虽然优于许多 LLM，但与特定任务微调模型之间仍存在 12.19 SPARROW 分数差距。

Abstract

Instruction tuned large language models (LLMs), such as ChatGPT, demonstrate remarkable performance in a wide range of tasks. Despite numerous recent studies that examine the performance of instruction-tuned llms

large language models instruction-tuned llms cross-lingual sociopragmatic meaning multilingual benchmark sparrow

发现论文，激发创造

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

基于预训练大型语言模型的乌尔都自然语言处理任务潜力评估

利用零样本学习对四种主要的神经网络模型在 14 个乌尔都自然语言处理任务上进行了全面对比和分析，结果表明最先进的模型在所有任务中都超越了编码器 - 解码器的预训练语言模型。此外，研究还发现，基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。

May, 2024

大语言模型时代的跨语言情感分析模型竞技场：一项比较研究

在跨语言情感分析领域，公共的小型多语言语言模型在零样本跨语言性能上优于大型通用语言模型，但在少样本跨语言设置中，公共的大型通用语言模型展现出更高的适应潜力。

Jun, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

通过仅使用平行数据训练的大型语言模型研究翻译能力

本研究引入了 PLUME（Parallel Language Model），该模型是由三个 2B LLMs 组成，采用不同词汇量（32k、128k 和 256k），并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在 16 个有监督翻译方向和 56 个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型，我们对 LLMs 的翻译能力进行了全面调查，探究其性能、提示的不同元素以及跨语言表示空间的影响。

Jun, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Nov, 2023