通过与人员进行抽样,揭示人类和语言模型之间对话语调的相似性和差异性
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
本研究通过分析大型语言模型(LLMs)在理解人际对话时的注意机制变化,对与网络内容、代码和数学文本的三种使用情况进行了分析。研究表明,对话数据具有长期上下文关系的细致处理和通过注意力模式的高复杂性等独特挑战。我们的研究结果显示,虽然语言模型表现出领域特定的注意行为,但在专攻人类对话方面仍存在显著差距。通过详细的注意熵分析和 t-SNE 可视化,我们展示了训练于多样且高质量对话数据的模型,以提升对人类对话的理解和生成。这项研究强调了语言模型领域专长的重要性,并提出了未来建模人类对话细微差别的途径。
Mar, 2024
在口语对话中,即使两个当前对话相同,它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架,旨在教导 LLMs 理解和适当回应不同的语言风格,并使用 StyleTalk 数据集进行训练,通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格,实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。
Feb, 2024
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024
本研究对语言模型(LLMs)的理解能力进行了比较和对照,发现人类分析师和 LLMs 的分类和推理能力存在显著差异,但二者合作可能会产生协同效应,从而丰富了定性研究。
Jun, 2023
定量分析比较人类写作的英文新闻与基于 4 个 LLMa 家族的大型语言模型 (LLM) 输出的差异,结果显示了人类文本与 AI 生成文本在多个可测量的语言维度上的差异,包括形态、句法、心理测量和社会语言方面,并揭示了 LLM 生成文本中存在更多的数字、符号和助动词,以及更多的代词,人类文本中存在的性别偏见也被 LLMs 表达出来。
Aug, 2023
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
通过语言分析,对比了目前三种最流行的大型语言模型(GPT-3.5、GPT-4 和 Bard)生成的文本与不同输入的词汇、词性分布、依存分布和情感,结果显示存在显著的语言变化,通过简单的模型分类可以以 88% 的准确率将文本归属于相应的大型语言模型。讨论了这一有趣发现的理论和实际意义。
Feb, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
最近大型语言模型的成功引起了广泛关注,发展适应不同说话者特征和风格的角色扮演对话代理人以增强其执行一般和特殊目的对话任务的能力,然而,个性化生成话语的能力,无论是由人类还是大型语言模型进行,尚未得到很好的研究。为了填补这一差距,我们的研究引入了一个新颖的评估挑战:在代理人生成的对话中进行说话人验证,目的是验证两组话语是否来自同一个说话人。为此,我们收集了一个包含数千名发言人及其话语的大型数据集,并开展了实验设置下的说话人验证模型的开发和评估。我们进一步利用说话人验证模型评估了基于大型语言模型的角色扮演模型的个性化能力。全面的实验表明,当前的角色扮演模型未能准确模仿说话者,主要原因是它们固有的语言特点。
May, 2024