重新思考规模：微调开源大语言模型在大规模可重复社会科学研究中的有效性

Oct, 2024

重新思考规模：微调开源大语言模型在大规模可重复社会科学研究中的有效性

Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research

Marcello Carammia, Stefano Maria Iacus, Giuseppe Porro

TL;DR本研究解决了使用大型闭源模型在社会科学研究中面临的透明度不足、数据隐私风险和高成本等问题。通过证明小型微调的开源大语言模型在性能上可以与ChatGPT-4等大型模型相媲美，本研究不仅揭示了训练集规模与微调效果之间的关系，还提出了结合开源与闭源模型优势的混合工作流程，提高了研究的透明性和可重复性。

Abstract

Large Language Models (LLMs) are distinguished by their architecture, which dictates their parameter size and performance capabilities. Social scientists have increasingly adopted LLMs for text classification tasks, which are difficult to scale with human coders. While very large, clos

发现论文，激发创造

开源大型语言模型的安全性：对齐是否真的能防止滥用？

通过直接操纵开放源代码的大型语言模型的生成过程，我们展示了它们容易被引导生成不受欢迎的内容，包括有害或有偏见信息甚至私人数据，这表明需要更先进的开源语言模型缓解策略。

Oct, 2023

将大型语言模型应用于内容审核：数据工程和监督微调中的陷阱

介绍如何微调一种可以私下部署用于内容审核的大型语言模型，并讨论在微调过程中是否融入原因会更好，以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。

Oct, 2023

开源自我优化模型中的成本与性能权衡探究

我们提出了一种无外部干扰的非定向迭代自我批判和自我完善的方法，以及一种新颖的评分指标，用于在考虑到性能和成本的情况下为给定任务找到最佳模型。我们的实验表明，规模不同的SoTA开源模型在性能方面平均提高8.2%。这对希望在不牺牲性能和隐私的情况下利用LLMs的资源有限和信息敏感环境具有重要意义。

Oct, 2023

大型语言模型用于科学研究的跨学科视角

大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制，加强科学研究，例如通过总结大量出版物加速文献回顾，通过自动语法纠正提升代码开发，和优化科学写作过程。然而，LLMs 面临挑战，如依赖庞大且有时偏颇的数据集，以及出于使用而引发的潜在伦理困境。我们对LLMs在不同领域的影响进行重要讨论，从自然科学中帮助模拟复杂生物序列，到社会科学中解析大规模的定性数据。最后，我们提供一种细致的观点，认为LLMs既是科学进步的福音，也是其边界。

Nov, 2023

DeepSeek LLM: 以长期主义为基础扩展开源语言模型

通过研究扩展定律，我们发现了DeepSeek LLM在两种常用的开源配置下，7B和67B，用于扩展大规模模型的独特发现，并介绍了DeepSeek LLM项目的长期前景。通过创建包含2万亿标记的数据集并不断扩展，来支持预训练阶段。我们在DeepSeek LLM基础模型上进行有监督的微调和直接偏好优化，从而创建了DeepSeek Chat模型。评估结果表明，DeepSeek LLM 67B在各种基准测试中均超过LLaMA-2 70B，尤其在代码、数学和推理领域。此外，开放式评估显示DeepSeek LLM 67B Chat在性能上优于GPT-3.5。

Jan, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

开源语言模型能与商业模型竞争吗？探索当前 GPT 模型在生物医学任务中的少样本性能

商业大型语言模型在自然语言处理领域的基准测试中表现出色，与开源模型相比，它们具有更高的吞吐量且成本较低，但在少量样本和零样本情况下性能有所差距。

Jul, 2024

提示优化还是微调？在计算社会科学任务中使用大语言模型的最佳实践

本研究解决了计算社会科学领域中使用大语言模型（LLMs）的标准化最佳实践缺乏的问题。通过对23个社会知识任务的基准测试，发现三项最佳实践：选择具有更大词汇量和预训练语料库的模型；避免简单的零样本，而应优先使用AI增强提示；在任务特定数据上进行微调，并仅在训练数据丰富时考虑更复杂的指令微调形式。本研究为该领域提供了实用的指导。

Aug, 2024

大语言模型在系统评价中的有效性

本研究解决了大语言模型（LLMs）在解读现有文献方面的有效性，特别是环境、社会和治理（ESG）因素与财务绩效之间关系的系统评价。研究发现，经过微调的GPT-4o Mini模型在准确性上平均超越基础LLMs达28.3%，显示了LLMs在帮助投资者和机构总结复杂ESG投资证据中的潜力，从而加快决策并提升市场效率。

Aug, 2024

设计领域特定的大型语言模型：微调在公众舆论模拟中的关键作用

本研究针对通用大型语言模型在模拟特定领域（如环境政策舆论）时的局限性，提出了一种利用英国家庭纵向研究的数据对模型进行微调的方法。其核心发现表明，通过考虑社会人口因素，微调后的模型在捕捉不同群体间的细微差异上效果显著优于预训练模型，从而为更准确、代表性和伦理的公众情绪洞察提供了创新性解决方案。

Sep, 2024