关于 ChatGPT 在情感计算中的提示敏感性
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
Aug, 2023
本文主要评估了 ChatGPT 在文本分类中的能力,尤其针对情感计算问题,实验结果显示,虽然 ChatGPT 表现良好,但相对于 RoBERTa 来说还有一个较大的提升空间。
Mar, 2023
在本文中,研究人员探索了 ChatGPT 的新颖知识,在融合现有的自然语言处理技术时,如早期或晚期融合,增强了情感计算、自杀倾向检测和大五人格评估等问题的现有技术的能力。
Jul, 2023
本文详细评估了 ChatGPT 在 11 个数据集上的心理健康分析和情感推理能力,分析了不同提示策略对其分析能力和可解释性的影响,并发现情感提示可以有效提高其性能,但需要正确的情感注入方式。
Apr, 2023
本文研究了大型语言模型(尤其是生成预训练变压器)在各种语言相关任务上显示出的令人印象深刻的结果。我们探索了 ChatGPT 仅通过提示就能够执行情感计算任务的零点能力。我们显示 ChatGPT a)能够在价值、唤起和支配维度上执行有意义的情绪分析,b)在情绪类别和这些情感维度方面具有有意义的情感表示,以及 c)可以根据基于提示的 OCC 评估模型的计算实现,对情况进行基本的评估引发情绪的操作。这些发现具有很高的相关性:首先,它们表明解决复杂的情感处理任务的能力源于对广泛数据集进行基于语言的标记预测的训练。其次,它们显示了大型语言模型模拟、处理和分析人类情绪的潜力,这对于诸如情感分析、社交互动代理和社交机器人等各种应用具有重要意义。
Sep, 2023
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。
Nov, 2023
我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统,通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练,并在每次训练迭代中变化提示信息,以增加模型的泛化能力。客观和主观评估结果表明,该条件合成系统能够准确地将提示中的情感转移到语音中。同时,保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。
Jun, 2024
对 OpenAI 的 ChatGPT 语言模型的数学能力进行了细致评估,比较了其默认计算能力和三种规范方法(战略提示、个人角色实现和思维链方法)的效率。实证分析表明,这些方法没有显著改进 ChatGPT 的基准表现,甚至在某些情况下还会干扰模型的响应生成。这些发现强调了进一步全面研究和探索新技术以增强类似模型在不同领域中的精确性和可靠性的重要性。
Dec, 2023
通过组件角度研究了 GPT 系列大型语言模型的情感推理能力。研究首先探讨了该模型对自传记忆的推理方式,其次系统地改变情境的各个方面以影响情感强度和应对倾向。研究结果表明,即使没有使用提示工程,GPT 的预测结果与人提供的评估和情感标签相一致。然而,GPT 在预测情感强度和应对反应方面面临困难。尽管在进行微小提示工程后表现出优越的结果,GPT-4 在第二项研究中表现不佳。这一评估引发了如何有效利用这些模型的优点和解决其弱点的问题,尤其是在响应变异性方面。这些研究突显了从组件角度评估模型的价值。
Jul, 2023
这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性,通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现,在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译,而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算,评估从从实际翻译员的视角主观和定性地进行,结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译,从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用,特别是在营销文件和文化习语的背景下。
Aug, 2023