社交情感是否内在于大型语言模型？关于不同群体情感提取的实证研究

Aug, 2024

社交情感是否内在于大型语言模型？关于不同群体情感提取的实证研究

Are Social Sentiments Inherent in LLMs? An Empirical Study on Extraction of Inter-demographic Sentiments

Kunitomo Tanaka, Ryohei Sasano, Koichi Takeda

TL;DR本研究探讨了大型语言模型 (LLMs) 能否捕捉特定社交群体的情感，填补了对不同国家、宗教和种族/族裔群体情感了解的空白。通过向 LLM 提问并进行情感分析，发现其输出的群体间情感与实际社会调查结果高度关联，显示出 LLM 在提取社会情感方面的有效性。

Abstract

Large Language Models (LLMs) are supposed to acquire unconscious human knowledge and feelings, such as social common sense and biases, by training models from large amounts of text. However, it is not clear how much the sentiments of specific social groups can be captured in various LL

发现论文，激发创造

将语言模型与用户意见对齐

通过挖掘公众意见调查的数据，结合用户观点、人口统计学和意识形态信息来对LLMs进行定位，从而实现更好地预测各种话题下的公众观点，同时发现利用个体用户的相关过往意见可以提高预测准确性。

May, 2023

LLMs是否理解社交知识？使用SocKET基准评估大型语言模型的社交能力

介绍了一种名为SocKET的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能，结果表明当前模型表现中等，但是存在不同类型和类别任务之间的任务转移潜力，同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力，这个基准提供了系统性的方式来分析模型在语言的重要维度上的性能，为构建更加符合社交意识的大型语言模型提供了指导。

May, 2023

探究LLM中更微妙的偏见：生成模型中的年龄歧视、美貌、机构和国籍偏见

通过使用模板生成的数据集，本文研究了LLMs在年龄和美貌等维度上的偏见，以及LLMs对特定社会群体的情感偏向。同时，我们报告了多个先进的LLMs找到的相关性，这个数据集可以用来评估更广泛的偏见，并且模板技术可用于在最小的人工注释下扩展该基准。

Sep, 2023

超越指标：评估LLM在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现GPT-4和GPT-4-Turbo在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了LLMs不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

直接问LLMs：“是什么塑造了你的偏见？”：评估大型语言模型中的社会偏见

社会偏见在大型语言模型中是由各种人口统计学特征的目标的社会感知的积累所塑造的。为了全面理解大型语言模型中的这种社会偏见，必须考虑到各种身份认同之间多元观点下的社会感知。本文旨在研究各种视角的社会感知如何影响大型语言模型中社会偏见的发展。为此，我们提出了一种直观量化这些社会感知的新策略，并提出了可以通过汇集多样化的社会感知评估大型语言模型中社会偏见的度量标准。实验结果通过检查社会感知定量地展示了大型语言模型中的社会态度。我们进行的分析表明，我们提出的度量标准捕捉到了社会偏见的多维方面，从而实现了对大型语言模型中偏见的细致全面的调查。

Jun, 2024

消除偏见，建立桥梁：通过接触假设评估和缓解LMM中的社会偏见

大型语言模型（LLMs）持续存在社会偏见，反映其训练数据中的偏见，并加强社会刻板印象和不平等现象。我们的研究探讨了社会心理学概念中的接触假设在消除LLMs偏见方面的潜在潜力。通过对LLMs进行各种形式的社会接触模拟，以测量其对模型偏见的影响，反映了群体间互动如何在社会环境中减少偏见。我们使用一种有原则的方法创建了一个包含108,000个提示的数据集，用于复制社会接触以测量三个LLMs（LLaMA 2，Tulu和NousHermes）在13个社会偏见维度上的偏见。我们提出了一种独特的去偏思路，即社会接触去偏（SCD），通过对提问的无偏回复进行指导调整这些模型。我们的研究表明，当LLMs经过接触探测时，其回答存在社会偏见，但更重要的是，经过我们的SCD策略后，LLaMA 2的指令调整可以将这些偏见显著减少40%。我们的代码和数据可在此URL上获得。

Jul, 2024

多语言大型语言模型中孟加拉情感属性中性别刻板印象的实证研究

本研究针对Bangla语言中存在的情感与性别之间错综复杂的社会关系，对低资源语言中封闭和开源大语言模型的性别情感归属进行了分析研究，揭示了存在于Bangla中情感性别偏见的存在并展示了情感归属如何基于性别角色选择而改变，并公开提供了所有相关资源以支持Bangla自然语言处理的未来研究。

Jul, 2024

用语言模型估计德国公众舆论

我们的研究旨在调查用大型语言模型（LLM）能否准确估计德国公众舆论，以投票选择为例。我们生成了一个与2017年德国纵向选举研究受访者个人特征相匹配的虚拟样本。我们要求LLM GPT-3.5预测每个受访者的投票选择，并将这些预测与基于调查的聚合和子群水平的估计进行比较。研究发现，GPT-3.5不能准确预测公民的投票选择，存在偏向绿党和左翼党派的倾向。尽管LLM捕捉到了“典型”选民群体（如党派成员）的倾向，但它忽略了影响个人选民选择的多方面因素。通过研究LLM在一个新环境中对选民行为的预测，我们的研究增加了关于可以利用LLM研究公众舆论的条件的相关研究。研究结果指出了LLM中的意见代表性差异，并强调了将其应用于公共舆论估计时的局限性。

Jul, 2024

通过混合情感调查分析大型语言模型中的文化情感表现

本研究解决了大型语言模型（LLMs）在情感表现中对文化规范和价值观的潜在偏见，尤其是针对混合情感情境的分析。通过应用Miyamoto等人的研究方法，发现LLMs对书面语言的反应更敏感，而东亚语言的回应与其文化的契合度较高。研究揭示了LLMs的表现与文献证据的关联性有限，强调了在多文化背景下使用LLMs时需谨慎。

Aug, 2024

大型语言模型是否对情感敏感？

本文研究了大型语言模型（LLMs）对文本情感的检测和反应能力，填补了对其情感处理能力的评估缺口。通过一系列实验，发现LLMs在情感识别中存在一定敏感性，但准确性和一致性有显著差异，提示需改进其训练流程，以更好捕捉细微的情感线索。

Sep, 2024