大型语言模型是否对情感敏感？

Sep, 2024

Do Large Language Models Possess Sensitive to Sentiment?

Yang Liu, Xichou Zhu, Zhou Shen, Yi Liu, Min Li...

TL;DR本文研究了大型语言模型（LLMs）对文本情感的检测和反应能力，填补了对其情感处理能力的评估缺口。通过一系列实验，发现LLMs在情感识别中存在一定敏感性，但准确性和一致性有显著差异，提示需改进其训练流程，以更好捕捉细微的情感线索。

Abstract

Large Language Models (LLMs) have recently displayed their extraordinary capabilities in language understanding. However, how to comprehensively assess the sentiment capabilities of LLMs continues to be a challenge. This paper investigates the ability of LLMs to detect and react to sen

发现论文，激发创造

基于大型预训练语言模型的实用文本分类

本文提出利用大规模无监督语言建模与微调相结合的方法来解决情感多维度分类问题，并在 SemEval2018 Task 1:E-c 上获得竞争力和实际应用价值，成果表明这种方法可以用于真实情感分类任务。

Dec, 2018

利用心理语言学特征和Transformer提升基于文本的情感检测的泛化能力

本文采用基于转换器模型和双向LSTM网络的方法，结合心理语言学特征进行基于文本的情感检测，在两个基准数据集中表现出可比性，在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。

Dec, 2022

大语言模型时代的情感分析: 现实检验

本文讨论了大型语言模型在情感分析任务中的有效性，对13项不同的任务进行了评估，在简单任务中表现良好，但在涉及更深层次理解和结构化情感信息方面仍有待提高；然而，在资源有限的情况下，大型语言模型表现出色，提供了潜在可能性。该研究提出了一个新的基准评估框架SentiEval。

May, 2023

针对专门的情感识别任务定制通用的大型语言模型

通过使用大型语言模型，在情感识别领域中研究了LLMs的性能，发现其在语言情感识别任务中具有强大的迁移性和可行性。

Oct, 2023

大型语言模型用于方面级情感分析

使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了GPT-4和GPT-3.5的性能，结果显示微调的GPT-3.5在SemEval-2014任务4的联合方面术语提取和极性分类任务上获得了83.8的最优F1分数，比InstructABSA提高了5.7%，但模型参数增加了1000倍，推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时，我们的研究结果表明，在零痕迹和少痕迹环境中，详细提示可以提高性能，但对于微调模型来说并非必要。这些证据对于在ABSA中使用LLMs时面临提示工程和微调选择的实践者具有相关性。

Oct, 2023

超越指标：评估LLM在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现GPT-4和GPT-4-Turbo在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了LLMs不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

大型语言模型与以文本为中心的多模态情感分析：调查

与传统情感分析相比，多模态情感分析需要同时考虑来自多模态源的情感信号，它更符合人类在现实场景中处理情感的方式。本文综述了近期文本为中心的多模态情感分析任务中的研究，审视了大型语言模型在文本为中心的多模态情感分析中的潜力、方法、优势和局限性，总结了基于大型语言模型的多模态情感分析技术的应用场景，并探讨了未来多模态情感分析的挑战和潜在研究方向。

Jun, 2024

预测波兰政治文本中的情绪强度：监督模型与资源匮乏语言中的大型语言模型比较

通过比较使用机器学习模型与多个大型语言模型在波兰政治文本情感强度预测方面的表现，研究发现虽然受过监督的模型通常表现优于大型语言模型，但由于数据标注的高昂成本，大型语言模型在资源匮乏的语言环境中是可行的替代选择，该研究强调了大型语言模型在低资源语言环境中的潜力，并强调了对不同语言和连续特征上情感强度预测及其应用的进一步研究的需求，该研究的意义在于基于资源可用性和任务的具体要求为研究人员和从业者选择正确的情感预测方法提供细致的决策过程。

Jul, 2024

评估大型语言模型对讽刺理解的能力

本研究关注大型语言模型（LLMs）在讽刺理解方面的不足，指出现有模型在这一领域的表现远低于最新的预训练语言模型（PLMs）。研究发现，尽管GPT-4在多种提示方法中表现优异，整体上仍需对LLMs进行显著改进，以增强其对人类讽刺的理解能力。

Aug, 2024

讽刺基准：评估大型语言模型对讽刺理解的能力

本研究聚焦于大型语言模型（LLMs）在讽刺理解方面的不足，制定了针对讽刺检测的基准评估。通过对当前顶尖的LLMs和预训练语言模型的比较，发现现有LLMs在讽刺检测上的表现低于监督学习的基准，尤其是在少量样本提示下，其表现优于其他方法，指出了提升LLMs理解人类讽刺能力的必要性。

Aug, 2024