大型语言模型进行政策文件的多类别分类

Oct, 2023

大型语言模型进行政策文件的多类别分类

Multiclass Classification of Policy Documents with Large Language Models

Erkan Gunes, Christoffer Koch Florczak

TL;DR使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类，与人工干预程度相关的三种使用情景中，我们的结果表明完全依赖最小化人工干预的 GPT 不够充分，人工投入程度越高准确性越高，并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而，优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现，暗示着类似我们的方法相对容易实施，并可实现对大多数给定数据集的自动编码，从而节省资源并降低成本。

Abstract

Classifying policy documents into policy issue topics has been a long-time effort in political science and communication disciplines. Efforts to automate text classification processes for social science research

policy documents text classification human involvement gpt models accuracy

发现论文，激发创造

如何使用大型语言模型进行文本编码：以公共政策文件中的父亲角色为例

近期大语言模型（LLM）如 GPT-3 和 GPT-4 在政治学领域的文本分析方面取得了新突破，它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估 LLM 在三个原始编码任务的非英文政治学文本上的效果，并提供了在政治学研究中使用 LLM 进行文本编码的详细说明。我们的案例研究为希望将 LLM 纳入文本分析研究的研究人员提供了实用指南。我们发现，当提供了详细的标签定义和编码示例时，LLM 可以与甚至优于人工标注员，且速度快得多（高达数百倍），成本更低（比人工编码节省高达 60%），且更易于扩展到大量文本。总体而言，LLM 是大多数文本编码项目的可行选择。

Nov, 2023

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

PolicyGPT: 使用大型语言模型自动分析隐私政策

通过利用大型语言模型（LLM）开展文本分析，本研究构建了 PolicyGPT 隐私政策文本分析框架，并在两个数据集上进行了测试，结果表明在零样本学习条件下，PolicyGPT 取得了强大的性能，并优于传统机器学习和神经网络模型。

Sep, 2023

利用大型语言模型高效分类编程课程中学生求助请求

通过研究，我们发现 GPT-3.5 和 GPT-4 模型可以准确分类学生的求助请求，并提高教育系统的自动化分类能力。

Oct, 2023

从声音到可信度：利用大型语言模型（LLM）对政策利益相关者访谈进行文本分析

该研究通过将人类专业知识与大型语言模型（如 GPT-4）相结合，探索了人与计算机相互配合进行教育政策研究中的文本分析。结果显示，GPT-4 在特定主题上与人类编码的统一性达到 77.89％，在更广泛的主题上达到 96.02％，超过传统自然语言处理方法 25％以上，并且 GPT-4 更接近专家的情感分析。这种人与计算机相互配合的方法提高了教育政策研究的效率、有效性和可解释性。

Dec, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

在公共事务领域利用大型语言模型进行主题分类

本研究探讨了大型语言模型在分类公共事务文件中的性能，发现 LLMs 可以有效处理和理解公共事务文件中使用的复杂语言，并可用于处理特定领域的文件，如公共事务文件。

Jun, 2023

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

大型语言模型作为公司游说者

用大型语言模型辅助企业游说，帮助识别相关立法并草拟游说信，引发对人工智能游说的界限问题。

Jan, 2023