Scratch Copilot 评估:评估面向家庭的 AI 辅助编程创意
大型语言模型的艺术潜力在创意编码中的艺术家与人工智能协作中被广泛利用,我们的研究揭示艺术家创作过程中这种协作方式中的反思类型,比较了整个程序和多个子任务两种常见的协作方式,并通过实验数据和定性访谈展示了艺术家在两种不同方法中的不同反思激发,并显示了反思类型与用户表现、用户满意度和主观体验的相关性。同时,我们从艺术家的视角提供了人工智能协作的关键观点,并为未来 AI 辅助创意任务的设计提供了建议。
Feb, 2024
本文探讨了使用大型语言模型进行编程的相似之处和不同之处,认为 LLM-assisted 编程应该被视为一种具有自己独特属性和挑战的新编程方式,并讨论了在将大型语言模型应用于非专业用户编程时可能出现的问题和研究挑战。
Aug, 2022
该研究通过一个深入的案例研究,评估了大型语言模型在创意写作过程中作为辅助工具的潜力。研究中开发了交互式多声音提示策略,交织了背景描述、指导写作的指令、目标风格的文本示例和给定示例的关键讨论,并从文学批评的角度以及计算创造力的角度进行了定性评估。研究结果支持大型语言模型能够实现高级提示的观点。
Nov, 2023
探究 AI 在家庭创意编程中的支持和限制作用,研究人员建立了一个 Wizard of Oz 平台,帮助家庭通过与研究员操作的 AI Friend 合作进行创意编程,发现 AI Friend 通过问题提示帮助家庭更容易产生游戏点子,家长在 AI Friend 无法提供帮助时在指导孩子完成更复杂的编程任务中发挥了独特的作用,儿童则更加愿意利用 AI Friend 的帮助为新想法编写代码。这些发现表明,AI 支持的平台应突出关注家庭内关于孩子自主性和创意自我效能的独特 AI 交互。
May, 2023
通过实证用户研究 (n=30),我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用,发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助,尤其在翻译和审阅方面 LLMs 更为有帮助,同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。
Sep, 2023
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力,这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外,编程代码的复杂性常常升级到需要验证的难度,强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性,这对软件开发领域和其他领域具有重要意义。
May, 2024
本研究旨在建立一个有效的框架,评估大型语言模型的创造力水平,通过改编 Torrance 创造性思维测试方法,研究评估了各种任务中的创造性表现,包括流畅性、灵活性、独创性和详尽度等 4 个标准,并发现大型语言模型在独创性方面表现不足,但在详尽度方面优秀,还揭示了模型的创造力受提示和角色扮演设置的显著影响,多个模型合作也可以增强独创性,此外,人工评估和大型语言模型对创造力的影响存在一致性,强调了大型语言模型设计对创造力的重要影响。
Jan, 2024
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
利用 Large Language Models(LLMs)提高开发人员在开发环境(IDEs)中的生产力是现代软件开发的重点。本文介绍了 Copilot 评估工具,用于评估 LLM 引导的 IDE 交互,在不同编程场景和语言中提供了更稳健和信息丰富的评估指标。通过这些指标,我们评估了三种常见 LLMs 的性能,为未来的 LLM 引导 IDE 场景的开发和验证提供了经验教训。
Feb, 2024