大型语言模型的认知领域基准：来自台湾客家文化的见解

Sep, 2024

大型语言模型的认知领域基准：来自台湾客家文化的见解

Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture

Chen-Chi Chang, Ching-Yuan Chen, Hung-Shin Lee, Chih-Cheng Lee

TL;DR本研究针对大型语言模型（LLMs）在理解和处理特定文化知识方面的能力进行了基准评估，重点关注客家文化。使用布鲁姆分类法，建立了一个多维框架，评估LLMs在六个认知领域的表现，并发现检索增强生成（RAG）技术能够显著提升准确性，尤其是在需要精准检索和应用文化知识的任务中。研究结果彰显了这一基准在推动AI驱动的文化知识保存与传播方面的重要价值。

Abstract

This study introduces a comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) in understanding and processing Cultural Knowledge, with a specific focus on →

发现论文，激发创造

KoLA：大型语言模型世界知识的精细基准测试

我们构建了一种基于知识导向的大型语言模型评估基准，并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较，评估21个开源和商业大型语言模型的能力和知识相关度。

Jun, 2023

CDEval：评估大型语言模型文化维度的基准

利用GPT-4自动生成并通过人工验证的方式，我们构建了一个评估LLMs文化维度的新基准，CDEval。通过研究主流LLMs的文化方面，我们得出了一些有趣的结论，强调了在LLM开发中整合文化考量的重要性，特别是在多元文化环境中的应用。通过CDEval，我们旨在为LLM的未来发展和评估提供一个更全面的框架，为文化研究提供宝贵的资源，为构建更具文化意识和敏感性的模型铺平道路。

Nov, 2023

文化协作：AI辅助的互动式红色对抗测试，应对在低动态范围线性模型中文化多元知识的挑战

CulturalTeaming是一个人工智能系统，与人类合作创建多元文化知识评估数据集，通过与人类的互动合作，利用大型语言模型的自动化功能，提高文本注释者的能力并改善他们的体验，从而评估大型语言模型的多元文化知识，并揭示了现代大型语言模型在多元文化能力上存在的显著差距。

Apr, 2024

了解大型语言模型在文化常识方面的能力和局限性

通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验，我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异，其通用常识能力受到文化环境的影响，并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现，我们的研究指出了大型语言模型在文化理解方面的固有偏见，并提供了帮助开发具备文化意识的语言模型的洞见。

May, 2024

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024

DomainRAG: 用于评估领域特定的检索增强生成的中文基准

检验Retrieval-Augmented Generation （RAG）在特定领域环境中的能力与效果，评估存在的限制并寻求改进的研究。

Jun, 2024

大型语言模型与认知科学：相似性、差异性及挑战的全面评述

本综述研究了大型语言模型（LLMs）与认知科学交叉领域的相似性与差异性，分析了LLMs的认知能力评估方法及其作为认知模型的潜力。主要发现是LLMs在认知科学研究中的应用提供了重要见解，并指出了LLMs在与人类认知对齐过程中的挑战及未来研究方向。

Sep, 2024

文化基准：一个健壮、多样且具有挑战性的基准，用于衡量大型语言模型的（缺乏）文化知识

本研究旨在解决现有大型语言模型在文化知识评估方面的不足，提出了一种新的评估工具CulturalBench，包含1,227个涵盖45个全球区域的问题。研究发现，尽管最先进的模型在某些区域表现出色，但普遍在南美和中东的问题上表现不佳，尤其在回答多答案问题时趋向于单一答案。

Oct, 2024

利用检索增强生成技术实现文化包容的客家聊天机器人：设计见解与用户感知

本研究解决了传统大型语言模型在文化特定领域中无法提供准确和丰富回应的问题，通过开发检索增强生成（RAG）聊天机器人，增强了用户与客家文化的互动。研究发现，RAG技术能够提升用户满意度和参与度，显著促进对客家文化的理解和庆祝，强调文化敏感AI系统的重要性。

Oct, 2024

LLM-GLOBE：评估大型语言模型中隐含的文化价值观的基准

本研究针对当前对大型语言模型（LLMs）文化价值观的研究不足，提出了LLM-GLOBE基准，以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法，研究比较了中美两国LLMs的文化价值观，结果显示东西方文化价值体系之间的异同，为后续的模型开发和评估提供了重要启示。

Nov, 2024