通过混合情感调查分析大型语言模型中的文化情感表现

Aug, 2024

通过混合情感调查分析大型语言模型中的文化情感表现

Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey

Shiran Dudy, Ibrahim Said Ahmad, Ryoko Kitajima, Agata Lapedriza

TL;DR本研究解决了大型语言模型（LLMs）在情感表现中对文化规范和价值观的潜在偏见，尤其是针对混合情感情境的分析。通过应用Miyamoto等人的研究方法，发现LLMs对书面语言的反应更敏感，而东亚语言的回应与其文化的契合度较高。研究揭示了LLMs的表现与文献证据的关联性有限，强调了在多文化背景下使用LLMs时需谨慎。

Abstract

Large Language Models (LLMs) have gained widespread global adoption, showcasing advanced linguistic capabilities across multiple of languages. There is a growing interest in academia to use these models to simulate and study human behaviors. However, it is crucial to acknowledge that a

发现论文，激发创造

多语言语言模型并非跨文化:以情感为例的案例分析

本研究调查了2023年广泛使用的跨语言大型语言模型是否反映了不同文化和语言情感表达方式的差异，结果显示模型具有英语中心主义倾向，未能成功学习文化上适宜的情感细微差别，研究提出了可能的研究方向。

Jul, 2023

大型语言模型的情绪智能

本研究评估了大型语言模型（LLMs）的情感智能，特别关注情感理解，通过心理测量评估实现，发现大部分LLMs的情商高于人类平均水平并超过了某些特定质量以人为中心的模型，同时探讨了模型大小、训练方法和架构等因素对LLMs情感智能的影响。

Jul, 2023

感觉麻木还是有同理心? 通过EmotionBench评估LLMs的感受

利用心理学中的情感评估理论，我们提出了一种评估大型语言模型（LLMs）的同理心能力的方法，通过在具体情境中观察其感受变化。我们收集了超过400个情境，根据8种情绪将其分成36个因素，并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示，尽管存在一些偏差，LLMs总体能够适当地对特定情况做出反应，但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码，旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。

Aug, 2023

探究大型语言模型对情绪的感知——基于评估理论的研究

通过评估应激与应对理论，本研究调查了大型语言模型对情绪感知的能力，并与人类数据进行了比较；结果显示了模型在评估和应对的动态方面类似于人类，但在某些维度上与预期不符，且其响应幅度与人类存在较大差异；此外，研究还发现模型对指令和提问方式非常敏感，从而丰富了对当前模型心理学方面的认识。

Oct, 2023

超越指标：评估LLM在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现GPT-4和GPT-4-Turbo在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了LLMs不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

大型语言模型是否比人类更具移情能力？

本研究通过与人类基准对比的方式，综合评估了四个最先进的大型语言模型（GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro）在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示，大型语言模型在移情回应能力上显著超过人类，其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外，我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果，我们提出了一种可扩展和可适应的评估框架，用于评估新大型语言模型的移情能力，避免了未来研究中重复这项研究的需求。

Jun, 2024

LLM在不同文化背景中如何准确代表价值观？基于霍夫斯泰德文化维度的经验分析

通过对大型语言模型进行Hofstede文化维度的建议请求，研究发现大型语言模型在反映用户国家的价值观方面存在差异，但在回答问题时不一定遵循这些价值观，难以理解基于不同文化价值观的差异，因此提出了训练以价值观和文化敏感为导向的大型语言模型的建议。

Jun, 2024

生成语言模型能否多元文化化？基于ChatGPT对豪萨文化和情感的研究

我们研究了ChatGPT对豪萨文化和情感的表达方式，通过比较生成回答和豪萨本地人在37个与文化相关的问题上的回答，以及运用情感分析和相似性度量等方法进行实验和评估，结果显示ChatGPT在某种程度上和人类回答相似，但同时也存在知识和文化认知方面的不足和偏见。我们讨论了我们方法和分析的意义和局限，并提出了改进低资源语言下大语言模型性能和评估的方法。

Jun, 2024

多语言大型语言模型中孟加拉情感属性中性别刻板印象的实证研究

本研究针对Bangla语言中存在的情感与性别之间错综复杂的社会关系，对低资源语言中封闭和开源大语言模型的性别情感归属进行了分析研究，揭示了存在于Bangla中情感性别偏见的存在并展示了情感归属如何基于性别角色选择而改变，并公开提供了所有相关资源以支持Bangla自然语言处理的未来研究。

Jul, 2024

社交情感是否内在于大型语言模型？关于不同群体情感提取的实证研究

本研究探讨了大型语言模型 (LLMs) 能否捕捉特定社交群体的情感，填补了对不同国家、宗教和种族/族裔群体情感了解的空白。通过向 LLM 提问并进行情感分析，发现其输出的群体间情感与实际社会调查结果高度关联，显示出 LLM 在提取社会情感方面的有效性。

Aug, 2024