走向人机协作讨论分析的人在循环中语言模型方法
本研究调查了利用专家知识规则模型、监督式机器学习模型和大型语言模型(LLM)从学生讨论中检测挑战和识别挑战维度(认知、元认知、情感和技术 / 其他挑战)的潜力。结果显示,监督式机器学习和 LLM 在两个任务中表现出色,而基于规则的方法则主要依赖专家设计的特征。该论文对自动检测和支持学生在协作学习活动中遇到的挑战时刻的三种方法的表现进行了广泛讨论。论文认为,尽管 LLMs 具有许多优势,但由于其缺乏可靠性以及在有效性评估、隐私和杂乱性方面存在问题,它们不太可能成为解决学习的社交共享调控的检测和反馈问题的万灵药。我们通过讨论额外的考虑因素来结束该论文,包括模型的透明度,以探索使用 LLMs 为学生和教育工作者提供可行且有意义的分析反馈。
Jan, 2024
使用 LLM-in-the-loop 人工智能协作框架进行主题分析,能够在减少人力和时间需求的同时,获得与人工编码者相似的编码质量。
Oct, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实现自动化。
Apr, 2024
本研究评估了大型语言模型(LLMs)GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了 LLMs 在洞察力提取方面的巨大潜力。
Sep, 2023
该研究通过将人类专业知识与大型语言模型(如 GPT-4)相结合,探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示,GPT-4 在特定主题上与人类编码的统一性达到 77.89%,在更广泛的主题上达到 96.02%,超过传统自然语言处理方法 25%以上,并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。
Dec, 2023
最近的研究发现,由大型语言模型(LLMs)驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示,即使在竞争环境中,LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力,而且验证了计算社会科学的一个有前途的愿景。具体来说,它表明 LLM 代理人可以用来模拟人类社会交互,包括自发的合作,从而为社会现象提供洞察力。
Feb, 2024
该研究试验了大型语言模型(LLMs)在支持主题分析上的作用,发现人工研究者与两个 LLMs 在对澳大利亚 Robodebt 丑闻媒体报道的片段进行主题分类时存在有趣的重叠和差异,表明 LLMs 在支持对话和主题分析方面可以发挥作用,但应用中应该作为人类解释的补充,同时该研究还介绍了一种新颖的基于卡片的设计工具箱,以进一步研究 LLMs 作为分析工具的潜力。
May, 2024