人类与线性混合模型:探究数字通信中表情符号解释与使用的差异
ChatGPT 评估了其在已注释和后续任务处理方面的有效性,以验证 ChatGPT 能否在表情符号研究中作为可行的替代品,并且其解释表情符号含义的能力能增加在线沟通的清晰度和透明度。研究结果表明,ChatGPT 对表情符号有广泛的知识,并能够在不同应用场景中阐明其含义,具备取代人类注释者进行多种任务的潜力。
Jan, 2024
通过从大型语言模型合成大规模的文本 - 表情符号平行语料库,并在此基础上提取面向文本 - 表情符号双向翻译的序列到序列模型,我们的研究在公共基准测试和人工评估中表现出优于强基准模型的性能,且平行语料库对与表情符号相关的后续任务有益。
Nov, 2023
本研究通过与人类基准对比的方式,综合评估了四个最先进的大型语言模型(GPT-4、LLaMA-2、Mixtral-8x7B 和 Gemini-Pro)在共 2000 个情感对话提示中的回应中的移情能力。我们的发现显示,大型语言模型在移情回应能力上显著超过人类,其中 GPT-4 的回应被评为 “好” 的比例比人类基准提高了约 31%。此外,我们发现不同的大型语言模型在回应不同情感时表现显著不同。基于研究结果,我们提出了一种可扩展和可适应的评估框架,用于评估新大型语言模型的移情能力,避免了未来研究中重复这项研究的需求。
Jun, 2024
通过对大型语言模型的实验,研究表明情绪对其行为的决策和人类决策的关联存在重要影响,其中 GPT-4 在情绪状态下表现出与人类类似的行为响应。
Jun, 2024
本研究探索了大型语言模型在人机交互领域的表现,对比实际参与者的答案,结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好,但在判断人机行为差异方面成绩不佳,同时指出视觉模型无法完全抓住视频刺激的本质,且大型语言模型对不同沟通行为的评分和行为可取性分数较高。
Mar, 2024
本文探讨了如何将类人情感和伦理考虑整合到大型语言模型(LLM)中,并通过协作式 LLM 对八种基本人类情感进行建模,以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法,LLMs 能够进行自我评估和调整以符合伦理准则,并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成,进入共情互动和有原则决策领域的潜力,并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。
Apr, 2024
利用心理学中的情感评估理论,我们提出了一种评估大型语言模型(LLMs)的同理心能力的方法,通过在具体情境中观察其感受变化。我们收集了超过 400 个情境,根据 8 种情绪将其分成 36 个因素,并进行了包含超过 1200 名全球参与者的人工评价实验。研究结果显示,尽管存在一些偏差,LLMs 总体能够适当地对特定情况做出反应,但仍然无法与人类的情绪行为建立联系。我们公开了情境数据集、人工评估结果以及我们的测试框架 EmotionBench 的代码,旨在提高 LLMs 在与人类情绪行为的对齐方面的应用价值和实用性。
Aug, 2023
本研究评估了大型语言模型(LLMs)的情感智能,特别关注情感理解,通过心理测量评估实现,发现大部分 LLMs 的情商高于人类平均水平并超过了某些特定质量以人为中心的模型,同时探讨了模型大小、训练方法和架构等因素对 LLMs 情感智能的影响。
Jul, 2023
大型语言模型(LLMs)在许多任务中表现出了令人惊讶的性能,包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息,例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究(N=192,202),我们向人类评估者展示了几个模型(GPT4 Turbo、Llama2 和 Mistral)生成的各种回应,并要求他们评估这些回应的共情程度。我们发现 LLM 生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明,这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的 “风格”。这些结果凸显了在强调共情的情境中利用 LLMs 提升人类同伴支持的潜力。
Mar, 2024
GPT-4 可以进行情感预测和情感强度的操纵,以及通过反向评估进行目标、信念和情感的预测。然而,它不能完全取代试图建模情感相关过程的作品,尽管语言模型在情感建模中有重要作用。
Oct, 2023