提示优化还是微调？在计算社会科学任务中使用大语言模型的最佳实践

Aug, 2024

提示优化还是微调？在计算社会科学任务中使用大语言模型的最佳实践

Prompt Refinement or Fine-tuning? Best Practices for using LLMs in Computational Social Science Tasks

Anders Giovanni Møller, Luca Maria Aiello

TL;DR本研究解决了计算社会科学领域中使用大语言模型（LLMs）的标准化最佳实践缺乏的问题。通过对23个社会知识任务的基准测试，发现三项最佳实践：选择具有更大词汇量和预训练语料库的模型；避免简单的零样本，而应优先使用AI增强提示；在任务特定数据上进行微调，并仅在训练数据丰富时考虑更复杂的指令微调形式。本研究为该领域提供了实用的指导。

Abstract

Large Language Models are expressive tools that enable complex tasks of text understanding within Computational Social Science. Their versatility, while beneficial, poses a barrier for establishing standardized <

发现论文，激发创造

大型语言模型能否改变计算社会科学？

本研究探讨了利用大型语言模型(Large Language Models，LLMs)作为计算社会科学(Computational Social Science，CSS)工具的可行性。结果表明，LLMs可以作为零-shot数据注释工具或是用于启动具有挑战性的生成任务，并可以极大地提高社会科学分析的效率和降低成本。

Apr, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了ChatGPT和OpenAssistant两种公共可访问的LLM的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前LLMs无法与较小的经过微调的基线变压器模型（如BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和F1分数的差异超过10％。

May, 2023

LLMs是否理解社交知识？使用SocKET基准评估大型语言模型的社交能力

介绍了一种名为SocKET的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能，结果表明当前模型表现中等，但是存在不同类型和类别任务之间的任务转移潜力，同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力，这个基准提供了系统性的方式来分析模型在语言的重要维度上的性能，为构建更加符合社交意识的大型语言模型提供了指导。

May, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高LLMs的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

揭示LLM生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据，并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

自动注释中的知识蒸馏：由LLM生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

从基础到突破的最终指南：大型语言模型微调的全面技术、研究、最佳实践、应用研究挑战与机遇综述

本报告探讨了大型语言模型（LLMs）的微调，结合理论见解与实践应用，填补了传统自然语言处理（NLP）模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程，并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡，报告为研究者和从业者提供了实用的见解。

Aug, 2024

指令微调与上下文学习：重访少量样本计算社会科学中的大语言模型

本研究解决了大语言模型在计算社会科学任务中的指令微调与上下文学习效果差异的关键问题。通过实验，我们发现上下文学习在大多数任务中优于指令微调，且仅增加训练样本数量并不一定提高模型性能。研究强调了在少量样本情况下优化样本质量和提示策略对提升模型分类性能的重要性。

Sep, 2024

文化分析中的大语言模型分类研究

本研究探讨了文化分析中分类作为理解实践的应用，并评估了大语言模型在这一领域的适用性。我们发现，基于提示的大语言模型在传统监督模型的既定任务中具有竞争力，但在新任务中的表现较差，同时，LLMs还可以通过作为形式理论测试的中介输入来辅助理解。

Oct, 2024

重新思考规模：微调开源大语言模型在大规模可重复社会科学研究中的有效性

本研究解决了使用大型闭源模型在社会科学研究中面临的透明度不足、数据隐私风险和高成本等问题。通过证明小型微调的开源大语言模型在性能上可以与ChatGPT-4等大型模型相媲美，本研究不仅揭示了训练集规模与微调效果之间的关系，还提出了结合开源与闭源模型优势的混合工作流程，提高了研究的透明性和可重复性。

Oct, 2024