评估大型语言模型在课堂对话分析中的应用
本研究评估了大型语言模型(LLMs)GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了 LLMs 在洞察力提取方面的巨大潜力。
Sep, 2023
本论文探讨了在教学设计中利用大型语言模型(LLMs),尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的,通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性,强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作,其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验,我们提供有效使用 LLM 的最佳实践,如利用模板,微调,处理意外输出,实施 LLM 链,引用参考文献,评估输出,创建量表,评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景,该推荐系统可以根据用户的独特教育背景,定制 GPT-4 从教育研究中提取教学设计原则,并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力,以增强教育成果。
May, 2023
通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力,本研究旨在模拟一个有知识的老师的角色,并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性,测量标准是 BERTScore 和 DialogRPT,同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战,最终强调了对这些生成模型进行评估的需求,其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布,而且还依赖于模型展示教学技巧的能力。
Jul, 2023
该研究通过将人类专业知识与大型语言模型(如 GPT-4)相结合,探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示,GPT-4 在特定主题上与人类编码的统一性达到 77.89%,在更广泛的主题上达到 96.02%,超过传统自然语言处理方法 25%以上,并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。
Dec, 2023
该研究探讨了大型语言模型(特别是 GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估,结果显示 GPT-4 生成的大部分反馈有效地解决了代码错误。然而,不正确的建议和虚构的问题导致进一步改进的需求。
Mar, 2024
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023
近年来,在自然语言处理方面取得突破性进展的大型语言模型(LLM)的出现,展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中,我们深入研究了 LLM 在科学发现环境中的性能,重点关注 GPT-4,这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计和偏微分方程(PDE)等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估,提供对模型理解复杂科学概念和关系的定性洞见,以及偶尔的基准测试,定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4 在各种科学应用中展示出有希望的潜力,显示出处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
Nov, 2023
通过使用 GPT-4 对多个开源语言模型的反馈进行评估,本研究探讨了大型语言模型在教育领域中生成反馈的质量,并发现一些模型在性能上可以与专有的语言模型竞争,从而为其在教学环境中的负责任使用提供机会。
May, 2024
该论文探讨了将大型语言模型(如生成式预训练变换器 GPT)整合到人机合作环境中,通过口头人机交流手段促进可变自主性的快速发展的数字景观中,介绍了一种基于 Unity 虚拟现实(VR)环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明,用户对于与机器人对话的预设期望较高,却很少尝试探索机器人合作伙伴的实际语言和认知能力,但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。
Dec, 2023