九岁儿童在情感方面表现超过 ChatGPT:基于汉字写作的证据
本研究通过 Coh-Metrix 比较了 ChatGPT 和 CIE 学生在叙事主题上的写作表现,结果表明,在初始版本中,ChatGPT 在叙述性、词汇具体性和指代连贯性方面优于人类作家,但在句法简单性和深度连贯性方面劣于人类作家。经过多次修订后,ChatGPT 在句法简单性方面得到了改善,但在深度连贯性方面仍远不如 CIE 学生的写作。另外,讨论组成分的相关性分析表明,ChatGPT 和人类作家的叙事性与指代连贯性呈正相关,但各组内的相关性不同。
Mar, 2023
该研究探索了 ChatGPT 在处理古代汉语方面的能力,通过翻译古代汉语为现代汉语和识别古代汉语姓名的两个任务来评估其对古代汉语的理解能力。研究发现:ChatGPT 在古代汉语方面的熟练程度尚未达到令人满意的水平,并且在输入三个上下文句子时,在古代汉语到现代汉语的翻译上表现最佳。为了帮助复现我们的工作,我们展示了本研究中使用的 Python 代码片段。
Dec, 2023
ChatGPT 与中国高中学生在文本阅读推理能力方面存在互补关系,ChatGPT Plus 在情感和因果推理中表现卓越,而学生在负面情绪和逻辑分析方面具有优势。
Nov, 2023
研究人工智能工具对比了 ChatGPT 和 GPT-4 在 2019 年 NAEP 科学评估中的表现,结果显示这两个工具优于大多数学生,暗示需要改变教育目标以培养学生与 GAI 工具一起工作的能力,强调培养高级认知技能,避免对测试效率产生负面影响。
Jan, 2024
该研究对 ChatGPT 在越南高中毕业考试的数学题目中的表现进行了全面的分析,探讨了无法正确回答问题的挑战。
Jun, 2023
研究论文通过对 ChatGPT 及其最新版本 GPT-4 与人类生成的情感场景回应能力进行比较,探究了 ChatGPT 在回应不同情绪场景(正面和负面)时的共情水平。研究采用一项涉及 600 名参与者的组间研究来评估 ChatGPT 和人类生成的回应的共情程度。研究发现,ChatGPT 所生成的回应的平均共情评分比人类生成的回应高出约 10%。此外,明确要求 ChatGPT 在回应中融入对共情认知、情感和同情的明确理解,使其回应与具有较高共情度的个体的期望更为接近,相比之下,人类回应的一致性要小 5 倍。该研究提出的评估框架可用于评估较大的语言模型的共情能力,并且具有可扩展性和适应性,避免了未来研究中重复当前研究结果的需要。
Feb, 2024
本研究评估了 ChatGPT 对最流行的 GLUE 基准的理解能力,并与 4 个代表性的 fine-tuned 的 BERT 模型进行比较。我们发现,ChatGPT 在处理释义和相似性任务方面存在不足,但在推理任务方面优于所有 BERT 模型,并在情感分析和问答任务上表现与 BERT 相当。此外,通过组合一些高级提示策略,我们展示了 ChatGPT 的理解能力可以进一步提高。
Feb, 2023
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力,并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性,并提供了当前的限制。
May, 2024
ChatGPT 对于学术写作过程的帮助以及如何保持学生独立的作者声音进行了探讨,并且强调了 AI 工具(如 ChatGPT)对于语言学习者的学术写作的潜力。
Oct, 2023