chatGPT 生成的长篇比喻缺乏类人语言心理学特征
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
通过 12 个预注册的实验,我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理,但是他们在一些方面与人类处理方式存在差异,并且可能通过 Transformer 架构来解释这些差异。
Mar, 2023
评估了通过构建首个大规模故事级类比语料库 StoryAnalogy 来识别和生成类比的能力,并发现类比识别任务对于句子嵌入模型和最近的大型语言模型(LLMs)都具有极高的挑战性。最终发现 StoryAnalogy 中的数据可以提高 LLMs 的类比生成质量,其中经过微调的 FlanT5-xxl 模型在零 - shot 情况下表现与 ChatGPT 相当。
Oct, 2023
提出了一个新的基准测试,名为 ANALOGICAL,在长文本的类比上对大型语言模型(LLMs)进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中,发现当上升类比分类学时,LLMs 越来越难以识别类比。
May, 2023
通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力,研究发现 ChatGPT 和人类的表现有惊人的一致性,尽管它们的内部机制可能存在显著差异,这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。
Mar, 2024
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023
将复杂的计算概念与熟悉的经验和理解相联系通常是学生面临的挑战之一。为了帮助学生更好地理解,一个好的类比可以弥补陌生概念与熟悉概念之间的差距,提供一种有趣的学习方式。本研究调查了大型语言模型(特别是 ChatGPT)是否能够按需提供与个人相关的类比。通过对超过 350 名首年计算机学生生成的类比进行分析,研究集中于递归这一具有挑战性的门槛概念。结果表明,在学生自设主题的情况下生成的类比呈现出很大的多样性,而常规类比则相对较为普遍,这突显了学生在与大型语言模型合作时的创造力的价值。学生不仅对这项活动感到兴趣,而且他们表示理解了递归,而且更容易记住与个人和文化相关的类比。
Mar, 2024
通过实验和比较 ChatGPT 与普通人和语言学家在语言构造的判断上的一致性,在判断任务和语言处理方式上的差异性分析,我们的研究结果显示 ChatGPT 是人工智能模型中与语法直觉最接近的模型之一。
Jun, 2024
用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验,并将类比推理应用于复杂和冗长的情景中。
Feb, 2024
定量分析比较人类写作的英文新闻与基于 4 个 LLMa 家族的大型语言模型 (LLM) 输出的差异,结果显示了人类文本与 AI 生成文本在多个可测量的语言维度上的差异,包括形态、句法、心理测量和社会语言方面,并揭示了 LLM 生成文本中存在更多的数字、符号和助动词,以及更多的代词,人类文本中存在的性别偏见也被 LLMs 表达出来。
Aug, 2023