模型联盟：对创意写作中语言生成模型的全面评估

EMNLPOct, 2023

模型联盟：对创意写作中语言生成模型的全面评估

A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing

Carlos Gómez-Rodríguez, Paul Williams

TL;DR评估了几种最近的语言模型在英语创意写作上的表现，结果显示商业化的最新语言模型在多个方面与人类作家相媲美，但创造力方面人类仍占优势，幽默方面则分为能媲美人类和无法胜任的两类，对研究结果的意义和限制进行了讨论，并提出了未来研究的方向。

Abstract

We evaluate a range of recent llms on english creative writing, a challenging and complex task that requires imagination, coherence, and s

llms english creative writing human evaluation coherence humor

发现论文，激发创造

LlM 中创意写作评估的不寻常对决

本文通过在英语创意写作任务上评估一系列最新的、针对指令进行调整的大型语言模型（LLMs），并将它们与人类作家进行比较，得出结果显示，某些商业 LLMs 在大多数评估维度上能够与甚至略胜于人类作家，但开源 LLMs 落后；人类在创意性上保持领先地位，只有前三个 LLMs 能够以人类水平理解幽默。

Jun, 2024

大语言模型时代的创造力支持：涉及新兴作家的实证研究

通过实证用户研究 (n=30)，我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用，发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助，尤其在翻译和审阅方面 LLMs 更为有帮助，同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。

Sep, 2023

艺术还是技巧？大型语言模型与创造力的虚假承诺

LLMs exhibit lower creativity in comparison to professional authors based on the Torrance Test of Creative Writing, and LLMs are found ineffective as assessors for evaluating creativity in writing.

Sep, 2023

从文学角度评估大型语言模型的创造力

该研究通过一个深入的案例研究，评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略，交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论，并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。

Nov, 2023

人类和大型语言模型中的分歧创造力

最新研究表明，大型语言模型（LLMs）在创造性方面可以超越人类的能力，特别是在发散性思维和创造性写作等特定创造性任务方面，这项研究使用创造力科学的最新进展构建了一个评估 LLMs 创造力的深入分析框架与一个包含 10 万人的实验数据集进行对比，既为更具创造力的 LLMs 的发展开辟了新的路径，也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。

May, 2024

关于大型语言模型的创新力

本文分析了大型语言模型在创造性写作方面的应用，讨论了其中的挑战，探讨了机器创造性中的一些问题，以及这些技术在创意产业中的社会影响。

Mar, 2023

大型语言模型中创造力的评估与理解

本研究旨在建立一个有效的框架，评估大型语言模型的创造力水平，通过改编 Torrance 创造性思维测试方法，研究评估了各种任务中的创造性表现，包括流畅性、灵活性、独创性和详尽度等 4 个标准，并发现大型语言模型在独创性方面表现不足，但在详尽度方面优秀，还揭示了模型的创造力受提示和角色扮演设置的显著影响，多个模型合作也可以增强独创性，此外，人工评估和大型语言模型对创造力的影响存在一致性，强调了大型语言模型设计对创造力的重要影响。

Jan, 2024

LLM 讨论：通过讨论框架和角色扮演提升大型语言模型的创造力

通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力，采用三阶段的 LLM 讨论框架，引入角色扮演技术，实现了创造性答案的多样性、多维度的交流，通过多项创造力度量指标超越了现有的单一和多个 LLM 框架。

May, 2024

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024

Pron vs Prompt：大型语言模型是否能够在创意文本写作上挑战世界级小说作家？

大型语言模型（LLMs）在创意文学写作方面仍远未能挑战顶级作家。通过与一位获奖小说家进行竞赛，该研究对 GPT-4 进行了评估，结果表明单纯扩大语言模型规模不能实现类似的创造性写作技巧。

Jul, 2024