LLMs 是否理解社交知识?使用 SocKET 基准评估大型语言模型的社交能力
社交媒体是多模态信息交流的中心,包括文本、图片和视频,这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc,一个综合性基准,旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估,我们发现了重要的性能差异,突出了模型在社交理解能力方面的改进需求。
Feb, 2024
通过对跨语言社会语用含义 (SM) 的多语言预训练语言模型和指导调整的 LLM(如 BLOOMZ 和 ChatGPT)在多语种基准测试 SPARROW 上的性能评估,发现开放源代码的指导调整型 LLM 仍然在各种语言中难以理解 SM,在某些情况下接近随机基线,ChatGPT 虽然优于许多 LLM,但与特定任务微调模型之间仍存在 12.19 SPARROW 分数差距。
Oct, 2023
大型语言模型(LLMs)在科学研究中的广泛应用需要先进的评估标准来全面评估它们对科学知识的理解和应用。为了解决这个问题,我们引入了 SciKnowEval 基准,这是一个新颖的框架,从五个渐进的科学知识水平对 LLMs 进行系统评估:广泛学习、认真探究、深入思考、清晰辨别和勤奋实践。这些水平旨在评估 LLMs 的科学知识的广度和深度,包括知识覆盖、探索能力、反思和推理能力、伦理和安全考量以及实践熟练性。我们以生物学和化学为 SciKnowEval 的两个示例,并构建了一个包含 50,000 个多层次科学问题和解决方案的数据集。通过利用这个数据集,我们使用零提示和少量提示策略对 20 个领先的开源和专有 LLMs 进行了评估。结果显示,尽管取得了最先进的性能,专有的 LLMs 在解决科学计算和应用方面仍有相当大的改进空间。我们预计 SciKnowEval 将建立一个全面的标准来评估科学研究和发现中的 LLMs,并促进将科学知识与强大的安全意识融入 LLMs 的发展。数据集和代码可在此 https URL 上公开获取。
Jun, 2024
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估 21 个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。
Aug, 2023
该论文通过评估大型语言模型的时空数据理解能力,将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度,并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验,揭示现有语言模型在知识理解和时空推理任务上表现出色,且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。
Jun, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
在自然语言处理领域中,本研究通过对四个知名的大型语言模型(Llama-2,Falcon,Mistral 和 Zephyr)进行全面的零样本评估,与最先进的微调模型进行性能比较,评估了大型语言模型在电信领域内的知识和理解能力,并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平,突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。
Feb, 2024
我们提出了一个新的挑战,以检验大型语言模型是否理解社会规范。我们的数据集需要对社会规范有基本的理解才能解决,它包含了 402 种社会规范技能和 12,383 个问题,涵盖了从意见和争论到文化和法律的广泛社会规范。我们根据 K-12 课程设计了数据集,使得能够直接将大型语言模型的社会理解与人类,特别是小学生进行比较。尽管先前的研究在我们提出的基准测试上几乎随机准确,但最近的大型语言模型如 GPT3.5-Turbo 和 LLaMA2-Chat 能够显著提高性能,仅稍微低于人类的表现。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型与人类的水平相当。考虑到大型语言模型在现实应用中的日益普及,我们的发现尤为重要,为未来的改进提供了独特的方向。
Apr, 2024