Pron vs Prompt：大型语言模型是否能够在创意文本写作上挑战世界级小说作家？

Jul, 2024

Pron vs Prompt：大型语言模型是否能够在创意文本写作上挑战世界级小说作家？

Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?

Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona

TL;DR大型语言模型（LLMs）在创意文学写作方面仍远未能挑战顶级作家。通过与一位获奖小说家进行竞赛，该研究对 GPT-4 进行了评估，结果表明单纯扩大语言模型规模不能实现类似的创造性写作技巧。

Abstract

It has become routine to report research results where large language models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in →

large language models creative writing novelist ai-human duels autonomous creative writing

发现论文，激发创造

关于大型语言模型的创新力

本文分析了大型语言模型在创造性写作方面的应用，讨论了其中的挑战，探讨了机器创造性中的一些问题，以及这些技术在创意产业中的社会影响。

Mar, 2023

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

从文学角度评估大型语言模型的创造力

该研究通过一个深入的案例研究，评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略，交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论，并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。

Nov, 2023

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

通过提示大型语言模型生成多样化的励志信息：与人工书写的信息相比较

通过使用众包任务的具体和包含示例的指导性说明书，我们发现，使用众包管道作为大语言模型（LLMs）的提示可以产生比基线提示更多样化的信息。同时，我们还讨论了人类作者和 LLMs 生成的信息的其他影响。

Aug, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Oct, 2023

大语言模型时代的创造力支持：涉及新兴作家的实证研究

通过实证用户研究 (n=30)，我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用，发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助，尤其在翻译和审阅方面 LLMs 更为有帮助，同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。

Sep, 2023

大型语言模型是否能胜任？一项实证研究评估 LLM 评分 K-12 教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的 GPT 版本和提示工程策略在标记真实学生答案时的性能表现，并发现 GPT-4 在这方面表现良好与人类级别接近。这一研究对于支持 K-12 教育中的低风险形成性评估任务具有重要意义。

May, 2024