使用大型语言模型进行系统综述中的数据提取探索:快速可行性研究
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
本研究评估了大型语言模型(LLMs)GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力,并应用自然语言处理的方法,通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标,从而展示了 LLMs 在洞察力提取方面的巨大潜力。
Sep, 2023
该研究探讨了大型语言模型(LLM),特别是 GPT-4,在课堂对话分析中的应用,这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点,调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析,包括数学和语文课堂的对话,该研究对人工编码的对话进行了评估,并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出,以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明,使用 GPT-4 能够显著节省时间,并且模型与人工编码者之间具有高度的一致性,尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。
Feb, 2024
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现 GPT-4 整体表现优于其他 LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证 LLMs 在处理复杂医学数据方面的能力,并为将来在专门领域的 LLM 评估建立基准。
Jan, 2024
该研究通过将人类专业知识与大型语言模型(如 GPT-4)相结合,探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示,GPT-4 在特定主题上与人类编码的统一性达到 77.89%,在更广泛的主题上达到 96.02%,超过传统自然语言处理方法 25%以上,并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。
Dec, 2023
本论文探讨了在教学设计中利用大型语言模型(LLMs),尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的,通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性,强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作,其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验,我们提供有效使用 LLM 的最佳实践,如利用模板,微调,处理意外输出,实施 LLM 链,引用参考文献,评估输出,创建量表,评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景,该推荐系统可以根据用户的独特教育背景,定制 GPT-4 从教育研究中提取教学设计原则,并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力,以增强教育成果。
May, 2023
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023