ChatGPT 作为新闻评论员：能否生成类似人类观点的 LLM？

MMDec, 2023

ChatGPT 作为新闻评论员：能否生成类似人类观点的 LLM？

ChatGPT as a commenter to the news: can LLMs generate human-like opinions?

Rayden Tseng, Suzan Verberne, Peter van der Putten

TL;DR研究了 GPT-3.5 在荷兰新闻文章上生成类似人类评论的能力，通过用多种提示技术进行人类相似度分析，并发现生成的 BERT 模型可以轻松区分人类写的评论和 GPT-3.5 生成的评论，且词汇多样性方面人类评论始终较高，表明生成性大语言模型在创造类似人类的有主观观点的评论方面仍然受限。

Abstract

chatgpt, gpt-3.5, and other large language models (LLMs) have drawn significant attention since their release, and the abilities of these models have been investigated for a wide variety of tasks. In this researc

chatgpt gpt-3.5 human-like comments dutch news articles prompts

发现论文，激发创造

ChatGPT 在语言使用上是否与人类相似？

通过 12 个预注册的实验，我们发现像 ChatGPT 这样的运用大型语言模型的聊天机器人能够在很大程度上模仿人类语言处理，但是他们在一些方面与人类处理方式存在差异，并且可能通过 Transformer 架构来解释这些差异。

Mar, 2023

人类与 ChatGPT 生成的对话的语言比较

研究探讨人类和 LLM 生成的对话之间的语言差异，并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计（LIWC）分析，在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色，但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异，加强了 LLM “更接近人类” 的最新发现。然而，在正面或负面情感方面，ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明，尽管对话中未明确提及情感，但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集，其中包含两个独立的聊天机器人之间的对话，这些对话旨在复制一个开放可访问的人类对话语料库，广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解，并为区分人类和 LLM 生成的文本的持续努力提供了信息，这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。

Jan, 2024

ChatGPT 还是人？检测与说明。解释机器学习模型检测短 ChatGPT 生成文本的决策

本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练，使用可解释的人工智能框架来对模型进行了解释，研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。

Jan, 2023

GPT 模型是否能遵循人类摘要准则？评估 ChatGPT 和 GPT-4 在对话摘要中的应用

该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验，测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明，GPT 模型通常会产生冗长的摘要，并偏离人类摘要指南。然而，使用人类指南作为中间步骤显示出一定的潜力，在某些情况下优于直接的字数限制提示。结果显示，GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降，说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性，但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。

Oct, 2023

机器心理学：大型语言模型预测人类记忆

通过测试 ChatGPT 在语言记忆任务中对人类表现的预测能力，研究发现 ChatGPT 和人类的表现有惊人的一致性，尽管它们的内部机制可能存在显著差异，这一发现强调了生成型人工智能模型在准确预测人类表现方面的潜力。

Mar, 2024

ChatGPT-4 在使用零样本学习对政治 Twitter 信息进行注释方面胜过专家和众包工作者

本文研究了大型语言模型 ChatGPT-4 在 Twitter 文本分析任务中对发布者政治意向分类的精度、可靠性和偏差，并结论该模型精度更高、可靠性更高、偏差相等或更低，从而证明了该模型在社会科学中的巨大影响。

Apr, 2023

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

ChatGPT 是否能够复现人类生成的标签？社交计算任务的研究

该研究探讨了 ChatGPT 等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释，并使用 ChatGPT 重新标注了五个具有里程碑意义的数据集，证明了它在数据注释方面具有潜力，但仍存在挑战。

Apr, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023