从声音到可信度：利用大型语言模型（LLM）对政策利益相关者访谈进行文本分析

Dec, 2023

从声音到可信度：利用大型语言模型（LLM）对政策利益相关者访谈进行文本分析

From Voices to Validity: Leveraging Large Language Models (LLMs) for Textual Analysis of Policy Stakeholder Interviews

Alex Liu, Min Sun

TL;DR该研究通过将人类专业知识与大型语言模型（如 GPT-4）相结合，探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示，GPT-4 在特定主题上与人类编码的统一性达到 77.89％，在更广泛的主题上达到 96.02％，超过传统自然语言处理方法 25％以上，并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。

Abstract

Obtaining stakeholders' diverse experiences and opinions about current policy in a timely manner is crucial for policymakers to identify strengths and gaps in resource allocation, thereby supporting effective

stakeholders policy text analysis gpt-4 educational policy research

发现论文，激发创造

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

如何使用大型语言模型进行文本编码：以公共政策文件中的父亲角色为例

近期大语言模型（LLM）如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破，它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果，并提供了在政治学研究中使用 LLM 进行文本编码的详细说明。我们的案例研究为希望将 LLM 纳入文本分析研究的研究人员提供了实用指南。我们发现，当提供了详细的标签定义和编码示例时，LLM 可以与甚至优于人工标注员，且速度快得多（高达数百倍），成本更低（比人工编码节省高达 60%），且更易于扩展到大量文本。总体而言，LLM 是大多数文本编码项目的可行选择。

Nov, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

利用大型语言模型支持实证法律研究中的主题分析

使用法律专家与大型语言模型（LLM）的协作框架进行主题分析和归纳编码相关研究，对刑事法院意见中的案件描述进行分析，发现典型盗窃案的类别，并证明 LLM 能有效产生初步编码、提高编码质量以及自动分类案件描述主题，为法律研究人员在整合 LLM 到他们的主题分析项目中提供指导。

Oct, 2023

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用 LLM 的最佳实践，如利用模板，微调，处理意外输出，实施 LLM 链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制 GPT-4 从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力，以增强教育成果。

May, 2023

大型语言模型是否能够取代人类进行系统评述过程？评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力

这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试，发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当，但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后，GPT-4 在数据提取方面达到了中等水平，而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时，GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究，对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明，目前在进行系统综述时应谨慎使用 LLM，但对于在可靠提示下完成的特定系统综述任务而言，LLM 可以与人工表现媲美。

Oct, 2023

大型语言模型进行政策文件的多类别分类

使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类，与人工干预程度相关的三种使用情景中，我们的结果表明完全依赖最小化人工干预的 GPT 不够充分，人工投入程度越高准确性越高，并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而，优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现，暗示着类似我们的方法相对容易实施，并可实现对大多数给定数据集的自动编码，从而节省资源并降低成本。

Oct, 2023

结构化知识库在大型语言模型中优化元数据整理的应用

通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验，评估 GPT-4 对于符合元数据标准的建议编辑能力，并通过同行评审过程计算了字段名 - 字段值对的符合精确度，发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息，从 79% 提高到 97%（p<0.01），结果表明 LLMs 与结构化知识库整合后，可以在自动化元数据管理中显示出希望。

Apr, 2024

使用大型语言模型进行系统综述中的数据提取探索：快速可行性研究

该文章介绍了使用 GPT-4（一个大型语言模型）快速可行性研究来（半）自动化系统性综述中的数据提取，在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。

May, 2024

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023