大型语言模型中文化能力的外在评估

Jun, 2024

大型语言模型中文化能力的外在评估

Extrinsic Evaluation of Cultural Competence in Large Language Models

Shaily Bhatt, Fernando Diaz

TL;DR本文研究了多样化用户和语言技术之间的高效交互所需的文化相关性和敏感性，以及在两个文本生成任务中文化能力的外部评估，最终讨论了在用户面向任务中设计全面评估文化能力时的重要考虑因素。

Abstract

productive interactions between diverse users and language technologies require outputs from the latter to be culturally relevant and sens

productive interactions diverse users language technologies cultural relevance cultural competence

发现论文，激发创造

文化鸿沟导航：探索和解锁文化视角的文本到图像模型

通过对 CulText2I 数据集进行内在评估、外在评估和人类评估，探索 TTI 模型中嵌入的文化知觉，揭示了模型的文化意识、文化差异和跨文化应用的潜力。

Oct, 2023

CULTURE-GEN: 透过自然语言提示揭示语言模型中的全球文化认知

通过对 110 个国家和地区的 8 个与文化有关的主题的文化条件生成，以及从这些生成中提取与每个文化相关的符号，我们发现文化条件生成由区分边缘文化与默认文化的语言 “标记” 组成，而且发现 LLM 在文化符号的多样性方面存在不平衡，并且来自不同地理区域的文化在 LLM 的文化无关生成中存在不同的存在。我们的发现促进了进一步研究 LLM 中全球文化知识和公平感知的研究。

Apr, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

大规模多元文化知识获取与语言模型基准测试

通过从维基百科文献到链接页面的导航，建立文化知识的多元多样化采集方法与 CultureAtlas 数据集，该数据集涵盖了各种亚国家地理区域和族群，用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型，以促进数字领域中全球文化的更具包容性和平衡的表达。

Feb, 2024

基于 LLM 的机器翻译中加入文化意识

本研究着眼于如何将文化知识应用于大型语言模型的机器翻译中，提出了一种新的数据筛选方法来构建具有文化相关性的平行语料库，并设计了简单有效的提示策略以帮助大型语言模型实现机器翻译。经过广泛实验表明，这些方法可以大大帮助将文化知识融入到大型语言模型的机器翻译中，从而在翻译文化特定的句子方面优于传统的 NMT 系统。

May, 2023

韩国大型语言模型的实用能力评估

通过评估 Large Language Models（LLMs）的现状，我们探讨了 LLMs 在韩语背景下的语用能力，包括常规的多项选择题和开放式问题的评估，结果显示 GPT-4 在两种评估设置中表现出色，分别获得 81.11 和 85.69 分，HyperCLOVA X 也得到了良好的分数，尤其在开放式问题的评估中，获得了 81.56 分，与 GPT-4 相比仅相差 4.13 分，而使用 CoT 提示的少样本学习策略则引入了对字面解释的偏见，限制了准确的语用推理能力，这些发现强调了提升 LLMs 在理解和传达超出字面解释的复杂意义方面的重要性。

Mar, 2024

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

评判评判者：针对在线评论生成的神经语言模型的大规模评估研究

本文研究自然语言生成的评估方法，并通过自动化评估和人工评估的比较，发现词汇重叠是自然语言生成的较好评估指标，而人工评估与自动化评估在排名上存在较大差异，因此呼吁重新考虑自然语言生成的评估目标。

Jan, 2019

CRAFT: 从野外提取和调整文化指引

本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令，并与通用指令调优数据集相结合，我们的模型展示出了较强的识别和理解区域文化细微差别的能力，从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验，取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径，并为未来在该领域的创新设立了先例。

May, 2024