Codebook LLMs：政治科学代码本的LLM应用和LLMs遵循代码本的调整

Jul, 2024

Codebook LLMs：政治科学代码本的LLM应用和LLMs遵循代码本的调整

Codebook LLMs: Adapting Political Science Codebooks for LLM Use and Adapting LLMs to Follow Codebooks

Andrew Halterman, Katherine A. Keith

TL;DR通过使用大型语言模型，在政治科学数据集上进行指令调整，可以在零样本分类中显著提高性能。

Abstract

codebooks -- documents that operationalize constructs and outline annotation procedures -- are used almost universally by social scientists when coding unstructured political texts. Recently, to reduce manual annotation costs, political scientists have looked to generative

发现论文，激发创造

ChatGPT-4在使用零样本学习对政治Twitter信息进行注释方面胜过专家和众包工作者

本文研究了大型语言模型ChatGPT-4在Twitter文本分析任务中对发布者政治意向分类的精度、可靠性和偏差，并结论该模型精度更高、可靠性更高、偏差相等或更低，从而证明了该模型在社会科学中的巨大影响。

Apr, 2023

大型语言模型能否改变计算社会科学？

本研究探讨了利用大型语言模型(Large Language Models，LLMs)作为计算社会科学(Computational Social Science，CSS)工具的可行性。结果表明，LLMs可以作为零-shot数据注释工具或是用于启动具有挑战性的生成任务，并可以极大地提高社会科学分析的效率和降低成本。

Apr, 2023

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现GPT-3可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

大型语言模型进行政策文件的多类别分类

使用GPT 3.5和GPT 4模型对议会法案和听证会进行分类，与人工干预程度相关的三种使用情景中，我们的结果表明完全依赖最小化人工干预的GPT不够充分，人工投入程度越高准确性越高，并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而，优秀的使用情景中的83%准确率仅在两个模型达成一致的65%数据上实现，暗示着类似我们的方法相对容易实施，并可实现对大多数给定数据集的自动编码，从而节省资源并降低成本。

Oct, 2023

如何使用大型语言模型进行文本编码：以公共政策文件中的父亲角色为例

近期大语言模型（LLM）如GPT-3和GPT-4在政治学领域的文本分析方面取得了新突破，它们承诺以更好的结果和更少的编程工作来实现自动化。本研究评估LLM在三个原始编码任务的非英文政治学文本上的效果，并提供了在政治学研究中使用LLM进行文本编码的详细说明。我们的案例研究为希望将LLM纳入文本分析研究的研究人员提供了实用指南。我们发现，当提供了详细的标签定义和编码示例时，LLM可以与甚至优于人工标注员，且速度快得多（高达数百倍），成本更低（比人工编码节省高达60%），且更易于扩展到大量文本。总体而言，LLM是大多数文本编码项目的可行选择。

Nov, 2023

基于LLM的测量：意识形态量化的应用

运用大型语言模型探索灵活应用社会科学测量任务中含糊多义概念，从而获取立法者和文本的意识形态规模，揭示政治意识形态在文字中微妙而分散的表现。

Dec, 2023

自动注释中的知识蒸馏：由LLM生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

政治偏见对大型语言模型在立场分类中表现的影响研究

本研究探讨大型语言模型（LLMs）在立场分类任务中体现的政治偏见，填补了对这类偏见如何影响模型性能的研究空白。通过分析三个数据集和七个LLM，我们发现LLMs在分类政治性立场时表现出显著的性能差异，尤其在目标陈述模糊时表现较差。这一发现为理解LLMs在特定任务中的偏见提供了重要见解。

Jul, 2024

提示优化还是微调？在计算社会科学任务中使用大语言模型的最佳实践

本研究解决了计算社会科学领域中使用大语言模型（LLMs）的标准化最佳实践缺乏的问题。通过对23个社会知识任务的基准测试，发现三项最佳实践：选择具有更大词汇量和预训练语料库的模型；避免简单的零样本，而应优先使用AI增强提示；在任务特定数据上进行微调，并仅在训练数据丰富时考虑更复杂的指令微调形式。本研究为该领域提供了实用的指导。

Aug, 2024

PoliPrompt：一种高性能、成本效益高的基于LLM的政治科学文本分类框架

本研究针对传统机器学习在政治科学文本分类中存在的高成本和低准确率问题，提出了一种三阶段的上下文学习方法，利用大语言模型（LLMs）提高分类准确性并降低实验成本。通过自动增强提示生成、自适应示例选择和共识机制，验证了在多个数据集上的显著改进，显示该方法提供了可扩展且可靠的文本分析解决方案。

Sep, 2024