使用大型语言模型支持定性分析：将编码簿与 GPT-3 相结合用于演绎编码

Apr, 2023

使用大型语言模型支持定性分析：将编码簿与 GPT-3 相结合用于演绎编码

Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding

Ziang Xiao, Xingdi Yuan, Q. Vera Liao, Rania Abdelghani, Pierre-Yves Oudeyer

TL;DR本文研究了大型语言模型（LLMs）在支持定性分析中的应用，通过结合 GPT-3 和专家编写的编码手册，我们提出的方法在好奇驱动的问题编码任务中达到了与专家编码结果相当的一致性。

Abstract

qualitative analysis of textual contents unpacks rich and valuable information by assigning labels to the data. However, this process is often labor-intensive, particularly when working with large datasets. While recent

qualitative analysis textual content ai-based tools large language models deductive coding

发现论文，激发创造

LLM 辅助内容分析：使用大型语言模型支持演绎编码

本研究探讨了利用大型语言模型的方法来减少演绎编码所需的时间，同时保留传统内容分析的灵活性。研究发现，在某些情况下，使用 GPT-3.5 可以达到与人类编码者同等程度的一致性水平。

Jun, 2023

LLM 在一些解释性任务中实现与人类表现相匹配的问题链条推理的可扩展性定性编码

定性编码，或内容分析，从文本中提取含义，以识别文本语料库中的定量模式。最近，大型语言模型（LLM）在解释能力方面的进展为自动编码过程（对文本应用类别标签）提供了可能性，从而使人类研究人员能够集中精力进行更有创意的研究，而将这些解释性任务委托给人工智能。我们的案例研究是关于一项人文研究的一组密集段落长的社会历史代码。我们表明 GPT-4 能够提供与人类相当的解释，而 GPT-3.5 则不能。与我们基于人工导出的黄金标准相比，GPT-4 对于 9 个代码中的 3 个代码提供了出色的编码一致性（Cohen's Kappa >= 0.79），对于 8 个代码提供了显著的一致性（Kappa >= 0.6）。相比之下，GPT-3.5 在所有代码中表现不佳（mean (Kappa) = 0.34; max (Kappa) = 0.55）。重要的是，我们发现当要求 LLM 给出理由来解释其编码决策时（思路连贯推理），编码准确性显著提高。我们提出了这些以及其他发现以及一套适应 LLM 的传统编码手册的最佳实践。我们的结果表明，对于某些编码手册，最先进的 LLM 已经熟练掌握了大规模内容分析技术。此外，他们也表明，下一代模型很可能使人工智能编码成为大多数编码手册的可行选择。

Jan, 2024

利用大型语言模型支持实证法律研究中的主题分析

使用法律专家与大型语言模型（LLM）的协作框架进行主题分析和归纳编码相关研究，对刑事法院意见中的案件描述进行分析，发现典型盗窃案的类别，并证明 LLM 能有效产生初步编码、提高编码质量以及自动分类案件描述主题，为法律研究人员在整合 LLM 到他们的主题分析项目中提供指导。

Oct, 2023

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

如何使用大型语言模型进行文本编码：以公共政策文件中的父亲角色为例

近期大语言模型（LLM）如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破，它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果，并提供了在政治学研究中使用 LLM 进行文本编码的详细说明。我们的案例研究为希望将 LLM 纳入文本分析研究的研究人员提供了实用指南。我们发现，当提供了详细的标签定义和编码示例时，LLM 可以与甚至优于人工标注员，且速度快得多（高达数百倍），成本更低（比人工编码节省高达 60%），且更易于扩展到大量文本。总体而言，LLM 是大多数文本编码项目的可行选择。

Nov, 2023

探索大型语言模型在初级编程课程中生成追踪代码问题的潜力

我们探讨了在初级编程课程中应用大型语言模型（LLM）生成代码追踪问题的方法，通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示，并建立了一套人工评价指标，用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了 LLMs 在生成多样化代码追踪问题方面的能力和潜力，并提供了一个独特的人工和 LLM 生成的追踪问题数据集，为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于 LLMs 在教育环境中潜在用途的持续对话做出了贡献。

Oct, 2023

从声音到可信度：利用大型语言模型（LLM）对政策利益相关者访谈进行文本分析

该研究通过将人类专业知识与大型语言模型（如 GPT-4）相结合，探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示，GPT-4 在特定主题上与人类编码的统一性达到 77.89％，在更广泛的主题上达到 96.02％，超过传统自然语言处理方法 25％以上，并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。

Dec, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

LLM-in-the-loop：利用大型语言模型进行主题分析

使用 LLM-in-the-loop 人工智能协作框架进行主题分析，能够在减少人力和时间需求的同时，获得与人工编码者相似的编码质量。

Oct, 2023

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023