人类与ChatGPT生成的对话的语言比较

Jan, 2024

人类与ChatGPT生成的对话的语言比较

A Linguistic Comparison between Human and ChatGPT-Generated Conversations

Morgan Sandler, Hyesun Choung, Arun Ross, Prabu David

TL;DR研究探讨人类和LLM生成的对话之间的语言差异，并使用ChatGPT-3.5生成的19.5K对话作为EmpathicDialogues数据集的补充。研究使用了语言查询和词频统计（LIWC）分析，在118个语言类别上比较ChatGPT生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色，但ChatGPT在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异，加强了LLM“更接近人类”的最新发现。然而，在正面或负面情感方面，ChatGPT和人类对话之间没有显著差异。对话嵌入的分类器分析表明，尽管对话中未明确提及情感，但存在着情感价值的隐式编码。该研究还提供了一个新颖的ChatGPT生成的对话数据集，其中包含两个独立的聊天机器人之间的对话，这些对话旨在复制一个开放可访问的人类对话语料库，广泛应用于语言建模的AI研究。我们的研究结果增加了对ChatGPT的语言能力的理解，并为区分人类和LLM生成的文本的持续努力提供了信息，这对于检测由AI生成的虚假信息、错误信息和误导信息至关重要。

Abstract

This study explores linguistic differences between human and llm-generated dialogues, using 19.5K dialogues generated by chatgpt-3.5 as a