ChatGPT 与 Gemini 与 LLaMA 在多语言情感分析中的比较

Jan, 2024

ChatGPT 与 Gemini 与 LLaMA 在多语言情感分析中的比较

ChatGPT vs Gemini vs LLaMA on Multilingual Sentiment Analysis

Alessio Buscemi, Daniele Proverbio

TL;DR使用大型语言模型（LLM）的自动情感分析在学术研究和工业应用中越来越普遍，但在处理模糊或讽刺文本的性能评估和验证方面仍不够完善。本研究构建了细致和模糊的场景，将其翻译成 10 种语言，并使用流行的 LLM 预测其关联的情感。结果经过后续人为响应的验证。ChatGPT 和 Gemini 通常能够很好地处理模糊场景，但我们也发现了在不同模型和评估的人类语言之间存在显著偏见和不一致的性能。本研究提供了自动情感分析评估的标准化方法，并呼吁进一步改进算法和其基础数据，以提高其性能、可解释性和适用性。

Abstract

automated sentiment analysis using large language model (LLM)-based models like ChatGPT, Gemini or LLaMA2 is becoming widespread, both in academic research and in industrial applications. However, assessment and

automated sentiment analysis large language model performance evaluation ambiguous scenarios algorithm improvement

发现论文，激发创造

LLM 之战：对话型 QA 任务的比较研究

通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估，本研究得出了这些最先进的语言模型的综合比较和评估结果，揭示了它们的能力，并突出了改进的潜在领域。

May, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

大型语言模型对泰卢固语熟练度的评估：ChatGPT 与 Gemini 的比较分析

通过比较大型语言模型在特鲁古语中的能力，研究旨在找出能够更深入理解特鲁古语法结构、具备更广泛词汇量、在写作和推理等任务中表现出色的语言模型，以及其适用于真实语言交互的能力，并评估其适应性和推理能力，为多语言 AI 能力的讨论提供见解，为开发能够无缝融入特鲁古语社区的大型语言模型铺平道路。

Apr, 2024

利用 ChatGPT 作为文本标注工具进行情感分析

本研究探讨了 ChatGPT 作为数据标记工具用于不同情感分析任务中的应用，结果表明相较于基于词汇表的算法，ChatGPT 在准确性方面有了显著提高，可用于不同的事件和任务情感分析的标注工作。

Jun, 2023

大型语言模型与以文本为中心的多模态情感分析：调查

与传统情感分析相比，多模态情感分析需要同时考虑来自多模态源的情感信号，它更符合人类在现实场景中处理情感的方式。本文综述了近期文本为中心的多模态情感分析任务中的研究，审视了大型语言模型在文本为中心的多模态情感分析中的潜力、方法、优势和局限性，总结了基于大型语言模型的多模态情感分析技术的应用场景，并探讨了未来多模态情感分析的挑战和潜在研究方向。

Jun, 2024

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

使用 ChatGPT 模型评估阿拉伯语 NLP 任务

本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能，并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5，同时提供了一种新的 Python 接口用于轻松评估这些任务。

Jun, 2023

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

ChatGPT 对源代码的分析

本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成，研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用，并指出它们在编程社区中的使用有望得到进一步推广。

Jun, 2023