大型语言模型诱导焦虑增加探索和偏见

Apr, 2023

大型语言模型诱导焦虑增加探索和偏见

Inducing anxiety in large language models increases exploration and bias

Julian Coda-Forno, Kristin Witte, Akshay K. Jagadish, Marcel Binz, Zeynep Akata...

TL;DR本文利用计算精神病学的方法来理解大型语言模型的行为，以 Generative Pre-Trained Transformer 3.5 为例，在常用的精神疾病测试中比人类表现的结果表明，在应用环境中如何向大型语言模型传达提示对其行为具有重要影响，同时也表明了将方法从计算精神病学引入来研究我们日益授权和自主委托的能力算法的可行性。

Abstract

large language models are transforming research on machine learning while galvanizing public debates. Understanding not only when these models work well and succeed but also why they fail and misbehave is of great societal relevance. We propose to turn the lens of →

large language models computational psychiatry generative pre-trained transformer 3.5 anxiety bias

发现论文，激发创造

认知网络科学揭示 GPT-3，ChatGPT 和 GPT-4 存在偏见，反映出高中学生数学焦虑

应用行为形态网络方法，研究了三个最新版本的大型语言模型 GPT-3、Chat-GPT 和 GPT-4 对数学和 STEM 领域的感知。结果表明，LLMs 对数学和 STEM 领域普遍持有负面看法，其中数学的看法尤为负面。最新版本的 LLMs 相对于旧版本和高中生感知更复杂、更少负面看法，这表明 LLMs 架构的进步有可能导致越来越不带偏见的模型，甚至有望消除有害刻板印象而不是延续它们。

May, 2023

聊天 GPT 与情感增强提示在心理健康分析中的评估

本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力，分析了不同提示策略对其分析能力和可解释性的影响，并发现情感提示可以有效提高其性能，但需要正确的情感注入方式。

Apr, 2023

大型语言模型中崭露细粒度情感处理能力

本文研究了大型语言模型（尤其是生成预训练变压器）在各种语言相关任务上显示出的令人印象深刻的结果。我们探索了 ChatGPT 仅通过提示就能够执行情感计算任务的零点能力。我们显示 ChatGPT a）能够在价值、唤起和支配维度上执行有意义的情绪分析，b）在情绪类别和这些情感维度方面具有有意义的情感表示，以及 c）可以根据基于提示的 OCC 评估模型的计算实现，对情况进行基本的评估引发情绪的操作。这些发现具有很高的相关性：首先，它们表明解决复杂的情感处理任务的能力源于对广泛数据集进行基于语言的标记预测的训练。其次，它们显示了大型语言模型模拟、处理和分析人类情绪的潜力，这对于诸如情感分析、社交互动代理和社交机器人等各种应用具有重要意义。

Sep, 2023

可靠性检查：对 GPT-3 在敏感话题和提示措辞方面响应的分析

研究分析了大型语言模型对敏感主题的反应和提示措辞对模型反应的影响，结果显示 GPT-3 在肯定的阴谋论和刻板印象方面反应正确，但在常见的错误观念和争议方面则会出现错误，暴露出其不可靠性。

Jun, 2023

大型语言模型中的认知效应

通过对 GPT-3 模型的测试，我们发现大型语言模型（LLMs）可能会出现几种人类认知效应，包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应，但缺乏锚定效应。我们描述了我们的方法学，并讨论了 GPT-3 出现这些效应的可能原因以及它们是模拟还是重新创造的问题。

Aug, 2023

情绪刺激：通过心理学为大型语言模型提升增强

大语言模型通过 EmotionPrompt 在情绪智能方面进行性能提升，取得了显著的成果，有助于人类与语言模型的跨学科知识交互。

Jul, 2023

利用大型语言模型的共情回应生成能力支持在线心理健康咨询

本研究通过比较五款大型语言模型（LLMs）生成的相应和传统对话系统及人工生成的相应，发现 LLMs 在大多数情景中表现出更高的同理心，从而探索并验证 LLMs 在模拟心理咨询对话中生成同理心回应的能力。

Oct, 2023

利用大型语言模型对变压器模型进行优化以检测孟加拉抑郁社交媒体文本：一项综合研究

我们的研究关注心理健康和社交媒体之间的重要联系，特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT，以及先进的深度学习模型（LSTM、Bi-LSTM、GRU、BiGRU）和 Transformer 模型（BERT、BanglaBERT、SahajBERT、BanglaBERT-Base），我们对 Reddit 和 X 数据集进行分类，并由精通心理健康的母语使用者将其翻译成孟加拉文，从而创建了孟加拉社交媒体抑郁数据集（BSMDD）。我们的工作提供了每个模型的完整架构细节，并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法，使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性，并解决了 Transformer 模型的可解释性问题，强调了 LLM 的有效性，特别是 DepGPT，在各种学习环境中的灵活性和能力。根据实验结果，所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B，而且在准确度和 F1 分数方面也优于其他模型，达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804，拥有高召回率和卓越精确度。尽管竞争激烈，GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性，为抑郁症检测模型的复杂领域提供了深入的信息。

Jan, 2024

轮询潜在观点：使用变换器语言模型的计算机社会语言学方法

使用 Transformer Language Models 等方法对 Yelp 评论进行语言行为学习，并利用 prompt-based queries 生成合成文本以分析特定观点，证明即使在缺乏特定关键词的情况下，这些模型也能准确产生具有正确情感的大量文本。

Apr, 2022

利用大型语言模型的潜力进行共情回应的生成：实证研究和改进

大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能，并提出了三种改进方法：语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明，我们的方法能够显著改善大型语言模型的性能，在自动评估和人工评估方面达到最先进的水平。此外，我们还探索了 GPT-4 模型模拟人工评估者的可能性。

Oct, 2023