适应社会的语言模型处理流程 (PALMS)：基于价值目标数据集

Jun, 2021

适应社会的语言模型处理流程 (PALMS)：基于价值目标数据集

Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets

Irene Solaiman, Christy Dennison

TL;DR本文提出了一种适应社会和价值观的语言模型调整过程 PALMS，并结合定量、定性评价和毒性评分等多个维度的度量方法验证了该过程的有效性和可行性，同时发现使用更多的训练集样本可以提高该过程的效果，而且可实现对语言模型进行重大调整。

Abstract

language models can generate harmful and biased outputs and exhibit undesirable behavior according to a given cultural context. We propose a Process for Adapting →

language models palms values-targeted datasets behavior model size

发现论文，激发创造

探究预训练语言模型在跨文化价值差异中的应用

该研究介绍了一种研究方法，探究 Pre-Trained Language models 中不同文化背景下内嵌的价值观，并研究了这些模型与已有价值观测量问卷之间的对齐度较弱，讨论了如何在跨文化环境下使用这些不一致的模型以及对齐模型的方法。

Mar, 2022

适用于特定文化背景的大型英语语言模型的方法论

针对大型语言模型在特定文化背景下应用的挑战，本文提出了一种快速自适应方法，利用特定文化知识和安全价值数据进行指导调整。实验结果表明，适应后的语言模型在领域特定知识和适应性方面显著提升，同时保持了其原有的专业优势。

Jun, 2024

PALO：面向 50 亿人的多语种大型多模态模型

本研究介绍了一个大型多语言多模态模型 Palo，它提供了 10 种主要语言（包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语）的视觉推理能力，总计覆盖了约 50 亿人口（世界总人口的 65%）。我们的方法采用半自动翻译方式，使用经过精调的大型语言模型将英语的多模态指令数据集转化为目标语言，以确保高语言准确性并保证可扩展性。不同语言指令的融合帮助我们提高跨多种语言的模型性能，尤其是对于印地语、阿拉伯语、孟加拉语和乌尔都语等少数被代表的语言。我们通过三个规模（17 亿、70 亿和 130 亿参数）的训练展示了该模型的普适性和可扩展性，观察到与强基线相比具有显著改进。同时，我们提出了第一个多语言多模态基准，用于评估不同语言之间的视觉推理能力。

Feb, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

Paloma: 评估语言模型贴合度的基准

通过测量语言模型对 585 个文本领域（从 nytimes.com 到 Reddit 上的 r/depression）的适应程度，本论文介绍了一种名为 Paloma 的语言模型评估方法，并使用基于指导方针的可比性组织结果，用于比较效率与成本的帕累托效率分析，还分析了预训练对不同领域适应性的影响。

Dec, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

使分类器能够明确地与人类价值观保持一致

该研究介绍了一个基于明确人类价值观的价值对齐分类框架，并从大规模语言模型中提炼价值对齐知识以构建分类器，结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。

Oct, 2022

CALM：一个综合评估语言模型偏见的多任务基准

评估语言模型偏见的全面评估基准数据集（CALM）是用于量化与比较语言模型社会人口统计偏见的重要资源，通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集，CALM 数据集更具多样性和可靠性，能更好地评估语言模型的广度和偏见。

Aug, 2023

探索域自适应训练对于大规模语言模型去毒化的极限

本文系统性地研究了领域自适应训练方法，利用语言模型的生成能力产生无毒数据集达到更高的数据效率，通过实验证明了自生成方法可以有效降低大型语言模型毒性，即使使用小得多的训练数据，也可以在自动和人类评估中优于现有的基线方法，并且提出了适配器层训练方法来降低参数，实现了更好的毒性 - 困惑度平衡。

Feb, 2022