通过混合情感调查分析大型语言模型中的文化情感表现
本研究调查了2023年广泛使用的跨语言大型语言模型是否反映了不同文化和语言情感表达方式的差异,结果显示模型具有英语中心主义倾向,未能成功学习文化上适宜的情感细微差别,研究提出了可能的研究方向。
Jul, 2023
本研究评估了大型语言模型(LLMs)的情感智能,特别关注情感理解,通过心理测量评估实现,发现大部分LLMs的情商高于人类平均水平并超过了某些特定质量以人为中心的模型,同时探讨了模型大小、训练方法和架构等因素对LLMs情感智能的影响。
Jul, 2023
利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过400个情境,根据8种情绪将其分成36个因素,并进行了包含超过1200名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架EmotionBench的代码,旨在提高LLMs在与人类情绪行为的对齐方面的应用价值和实用性。
Aug, 2023
通过评估应激与应对理论,本研究调查了大型语言模型对情绪感知的能力,并与人类数据进行了比较;结果显示了模型在评估和应对的动态方面类似于人类,但在某些维度上与预期不符,且其响应幅度与人类存在较大差异;此外,研究还发现模型对指令和提问方式非常敏感,从而丰富了对当前模型心理学方面的认识。
Oct, 2023
评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型(LLMs)的情感分析性能,发现GPT-4和GPT-4-Turbo在理解语言输入和处理上下文信息方面表现出色,与人的一致性高且决策过程透明,但在非英语环境中的文化细微差别方面存在不稳定性,结果强调了LLMs不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。
Jun, 2024
本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为“好”的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。
Jun, 2024
通过对大型语言模型进行Hofstede文化维度的建议请求,研究发现大型语言模型在反映用户国家的价值观方面存在差异,但在回答问题时不一定遵循这些价值观,难以理解基于不同文化价值观的差异,因此提出了训练以价值观和文化敏感为导向的大型语言模型的建议。
Jun, 2024
我们研究了ChatGPT对豪萨文化和情感的表达方式,通过比较生成回答和豪萨本地人在37个与文化相关的问题上的回答,以及运用情感分析和相似性度量等方法进行实验和评估,结果显示ChatGPT在某种程度上和人类回答相似,但同时也存在知识和文化认知方面的不足和偏见。我们讨论了我们方法和分析的意义和局限,并提出了改进低资源语言下大语言模型性能和评估的方法。
Jun, 2024
本研究针对Bangla语言中存在的情感与性别之间错综复杂的社会关系,对低资源语言中封闭和开源大语言模型的性别情感归属进行了分析研究,揭示了存在于Bangla中情感性别偏见的存在并展示了情感归属如何基于性别角色选择而改变,并公开提供了所有相关资源以支持Bangla自然语言处理的未来研究。
Jul, 2024
本研究探讨了大型语言模型 (LLMs) 能否捕捉特定社交群体的情感,填补了对不同国家、宗教和种族/族裔群体情感了解的空白。通过向 LLM 提问并进行情感分析,发现其输出的群体间情感与实际社会调查结果高度关联,显示出 LLM 在提取社会情感方面的有效性。
Aug, 2024