分析对数据选择和微调对 LLMs 中的经济和政治偏见的影响
通过使用大规模语言模型(LLMs)来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论,本研究创新性地采用了一个指导调整的 LLM,以反映一系列政治意识形态。我们提出了一个综合的分析框架,包括党派偏见差异评估和党派倾向预测,以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性,但在立场检测方面存在一些挑战,突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性,特别适用于需要敏锐意识到政治偏见的应用,为该领域做出了重要贡献。
Nov, 2023
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对 NLP 研究的影响,并提出了减轻不公平的未来方向。
May, 2023
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性,以保障应用现代机器学习方法的应用程序的完整性和公平性。
May, 2024
介绍了用于微调和评估大型语言模型(LLMs)用于专门的货币化任务的多方面方法论,目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分:1)在微调过程中精心混合领域内和通用数据,以实现一般能力和专业能力之间的最佳平衡;2)设计全面的评估框架,包含 45 个问题,旨在评估在功能相关维度(如可靠性、一致性和商业影响)上的表现;3)分析模型大小和持续训练对度量指标的影响,以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果,旨在为企业和研究人员提供行动洞察,以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架,其中包括 45 个量身定制的问题及其相应的评分指南,以促进 LLMs 在专门任务上的透明度与合作。
Oct, 2023
通过对大规模语言模型进行参数高效微调技术的研究,本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响,实验结果表明这些技术在减轻计算负担和提高性能方面表现优越,为软件工程场景中的更广泛应用开启了机会。
Aug, 2023
通过建立新的数据集并使用九个大语言模型,本研究研究了人工撰写文章和机器生成文章之间的性质变化以及政治偏见的检测,结果显示基准模型和经过调整的模型之间存在显著差异,并且大语言模型在分类器角色中也显示出政治偏见,为进一步研究大语言模型政治偏见及其影响提供了一个基础。
Jun, 2024
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024
介绍如何微调一种可以私下部署用于内容审核的大型语言模型,并讨论在微调过程中是否融入原因会更好,以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。
Oct, 2023
大型语言模型(LLMs)可能对公众对信息的认知和互动产生重大影响,因此需要对其内部思想意识是否可以轻易操纵引起关注。本研究探讨了 LLMs 在指导训练数据中学习和推广意识形态偏见的效果,并揭示了令人担忧的脆弱性:仅接触少量的思想倾向样本就会明显改变 LLMs 的思想意识,尤为显著的是,LLMs 展示了吸收一个主题的意识形态,并将其普遍应用于其他无关主题的惊人能力。LLMs 思想意识易受到恶意操作者故意操纵训练数据或数据标注者无意引入的偏见的风险,这强调了采取强有力的安全措施以减轻意识形态操纵对 LLMs 影响的重要性。
Feb, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023