我不再信任你!—— 高等教育中学生 LMS 使用对讲师学生信任的影响
个性化聊天机器人教学助手在解决教室规模扩大的问题上至关重要,特别是在教师直接存在有限的情况下。大型语言模型(LLM)提供了一个有前途的途径,不断有研究探索它们在教育上的实用性。然而,挑战不仅在于建立 LLM 的效能,而且还在于理解学习者与这些模型之间的互动细微差别,这会影响学习者的参与和结果。我们在一个本科计算机科学课堂(N=145)进行了一个形成性研究,并在 Prolific(N=356)上进行了一项受控实验,探索四种教学指导策略的影响以及学生方法与 LLM 响应之间的互动关系。直接的 LLM 答案稍微提高了表现,而改进学生解决方案培养了信任。我们的发现表明,所提供的指导和 LLM 在回答或改进学生输入方面的角色之间存在微妙的关系。根据我们的发现,我们提供了优化学习者 - LLM 互动的设计建议。
Oct, 2023
本文通过在印度的本科工程大学进行调查和访谈,揭示了 ChatGPT(一种流行的 LLM)在学术使用中的现状、所带来的好处、威胁、挑战以及增进学生和教师对 LLMs 采用的建议,进一步讨论了 LLMs 在本科工程教育及其他领域的实际意义。
Sep, 2023
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
论文探讨了临床医师对 LLMs 的信任与数据来源从人生成为 AI 生成内容的演变关系,并随之对 LLMs 的准确性和临床医师能力的影响。关注的其中一个主要问题是随着 LLMs 对其输出越来越依赖于学习,可能导致输出质量的降低和临床医师技能的减弱,因为与基本诊断过程的接触减少。虽然目前处于理论阶段,但这种反馈循环对于深入整合 LLMs 于医疗保健领域提出了重大挑战,强调了积极对话和战略措施以确保 LLM 技术的安全有效使用的必要性。此外,我们深入探讨了 LLMs 自我参考学习循环和医疗保健专业人员能力下降的潜在风险。LLMs 在回音室内运行的风险,其中 AI 生成的内容反馈到学习算法中,威胁到数据池的多样性和质量,可能固化偏见并降低 LLMs 的效力。同时,对 LLMs 在常规或关键任务方面的依赖可能导致医疗保健提供者的诊断和思考能力下降,特别影响未来专业人员的培训和发展。
Mar, 2024
通过探讨语言学习模型的安全威胁,本文全面研究了一系列涉及伦理道德的挑战,包括数据安全、隐私保护等问题,提出了一种定制的评估工具,用于加强语言学习模型的后端系统,并在测试阶段评估其伦理维度与社会伦理价值之间的一致性。
Jan, 2024
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
利用大型语言模型(LLMs)进行代码生成、调试和解释的能力在大学本科编程教育领域引起了研究人员和教育者的兴趣,但决定如何以及为何在编程教育中使用 LLMs 可能不仅涉及到 LLMs 的技术能力评估,同时也会受到学生社会感知的影响。本研究使用社会技术塑造理论作为指导框架,探讨了学生的社会感知如何影响他们对 LLMs 的使用,并研究了学生在大学本科编程课程中自报告的 LLMs 使用情况与其自我效能感和期中成绩之间的相关性。通过对匿名课程末尾学生调查(n = 158)、期中自我效能调查(n = 158)、学生访谈 (n = 10)、作业中自报告的 LLMs 使用情况和期中成绩的数据三角化分析,我们发现学生对 LLMs 的使用与他们对未来职业的期望以及对同伴使用的认知相关。此外,我们发现在我们的环境中早期自我报告的 LLMs 使用与较低的自我效能感和期中成绩有关,而学生对 LLMs 的过度依赖感,而非使用本身,与课程后期的自我效能感降低相关。
Jun, 2024
本文对基于大型语言模型的教育技术创新进行了系统文献综述和理论分析,并提出了以人为本的开发推荐,以解决基于大型语言模型的教育任务自动化可能带来的实际和伦理挑战。
Mar, 2023