- 明示和隐示的大型语言模型角色生成意见,但无法复制更深层次的认知和偏见
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺 - 通过调整并对变化进行惩罚来减少预训练模型中的偏差
基于改变惩罚的方法来减轻模型中的隐性偏见,需要很少的对立示例并结合提前停止准则以增加性能。
- 在显式无偏的大型语言模型中测量隐性偏见
通过心理学启发的 LLM 暗示联想测试偏差和 LLM 决策偏差等两项偏差测量方法,揭示了大规模语言模型中普遍存在的人类化刻板印象偏差,以及对决策任务中的微妙歧视进行检测。
- 大规模强化学习用于扩散模型
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
- 在脱轨损失及其之外的动力学下
最近的研究重点研究了深度学习中的隐性偏差,特别是最后一层特征和分类器权重的行为。本文引入了简明的无约束损失函数,提供了更多数学机会来分析封闭动态,同时尽可能少地进行简化或假设。无约束损失允许考虑更多实际技术,如变化的学习率和特征归一化。通过 - EMNLPPEFTDebias: 使用 PEFTs 捕捉去偏信息
通过引入 PEFTDebias 方法,在 foundation models 中使用参数高效微调 (PEFT) 来减轻隐含的偏见。PEFTDebias 由两个主要阶段组成:上游阶段用于沿特定偏见轴获取去偏参数,下游阶段将这些参数整合到模型中 - 早期和晚期隐性偏见的二分法可以显然地引发 Grokking
该研究探讨在理论环境中学习算术任务中的 “理解” 现象,并表明它可以通过早期和晚期的内隐偏差引发。具体而言,当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时,我们证明训练过程会长时间陷入与核心预测器对应的解决方案,然后发 - 优秀的规则性形成大学习率的隐式偏差:稳定性、平衡和推动力的边界
优化中的大学习率、隐性偏差、非凸优化、规则性和收敛理论之间的关系。
- RAFT: 用于生成式基础模型对齐的奖励排序微调方法
本文提出了一种新的框架 RAFT,它利用奖励模型和足够数量的样本将生成模型对齐,选择高质量的样本并去除那些表现不良的样本。该算法在大型语言模型和扩散模型的情况下表现良好。
- 预训练语言模型中衡量代表性伤害的度量指标的实证研究
本文通过对普及的预训练语言模型(PTLMs)的大规模数据进行实证分析,探讨测量 PTLMs 中对 13 个弱势人群的隐含偏见和有害内容所产生的表示损害的方法,并发现神经网络的深度对于减轻表示损害有所帮助。
- EMNLP通过常识推理揭示叙述中的隐性性别偏见
研究表明,预训练语言模型从其训练语料库中学习到具有社会伤害性的偏见,并可能在生成过程中重复这些偏见。本文研究模型生成故事中与主角相关的性别偏见,使用常识推理引擎揭示了其中的隐含偏见,包括主角的动机、属性、心态以及对他人的影响。我们的研究发现 - 过度参数化模型中的核心和丰富区域
研究发现神经网络在过参量化后,当行为符合核化线性预测器时,在梯度下降的训练下能找到最小 RKHS 范数解;与此不同的是,梯度下降在过参量化的多层网络上可能引入不是 RKHS 范数的丰富隐性偏差。本文基于 Chizat 和 Bach 的观察, - 深度神经网络在频域下的训练行为
通过对实际和合成数据集的实证研究,我们发现常见设置下的深度神经网络首先快速捕捉到主导低频部分,然后相对缓慢地捕捉高频部分,我们称之为频率原理 (F-Principle),这一原则有助于理解早停的效果以及神经网络的泛化。
- Themis-ml:一种关注公平的机器学习接口,用于端到端的歧视发现和缓解
本文介绍了一种名为 themis-ml 的公平性感知机器学习接口,可以帮助数据科学家和工程师更好地理解和降低社会敏感数据中的隐式历史偏见。