模型联盟:对创意写作中语言生成模型的全面评估
本文通过在英语创意写作任务上评估一系列最新的、针对指令进行调整的大型语言模型(LLMs),并将它们与人类作家进行比较,得出结果显示,某些商业 LLMs 在大多数评估维度上能够与甚至略胜于人类作家,但开源 LLMs 落后;人类在创意性上保持领先地位,只有前三个 LLMs 能够以人类水平理解幽默。
Jun, 2024
通过实证用户研究 (n=30),我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用,发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助,尤其在翻译和审阅方面 LLMs 更为有帮助,同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。
Sep, 2023
LLMs exhibit lower creativity in comparison to professional authors based on the Torrance Test of Creative Writing, and LLMs are found ineffective as assessors for evaluating creativity in writing.
Sep, 2023
该研究通过一个深入的案例研究,评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略,交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论,并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。
Nov, 2023
最新研究表明,大型语言模型(LLMs)在创造性方面可以超越人类的能力,特别是在发散性思维和创造性写作等特定创造性任务方面,这项研究使用创造力科学的最新进展构建了一个评估 LLMs 创造力的深入分析框架与一个包含 10 万人的实验数据集进行对比,既为更具创造力的 LLMs 的发展开辟了新的路径,也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。
May, 2024
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编 Torrance 创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等 4 个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
通过模拟从不同背景和视角的参与者中进行互动讨论来提升大型语言模型创造力,采用三阶段的 LLM 讨论框架,引入角色扮演技术,实现了创造性答案的多样性、多维度的交流,通过多项创造力度量指标超越了现有的单一和多个 LLM 框架。
May, 2024
本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024
大型语言模型(LLMs)在创意文学写作方面仍远未能挑战顶级作家。通过与一位获奖小说家进行竞赛,该研究对 GPT-4 进行了评估,结果表明单纯扩大语言模型规模不能实现类似的创造性写作技巧。
Jul, 2024