COBIAS:偏见评估中的情境可靠性
为了保证 Large Language Models(LLMs)的安全性,同时保持其上下文准确性,提出了 MBIAS 框架,通过在自定义数据集上进行指令微调,优化 LLMs 生成中的偏见和毒性问题,实验结果表明,MBIAS 能够在保持关键信息的同时,将总体偏见和毒性减少 30% 以上,且在各个人口统计学数据上的测试中,偏见和毒性减少超过 90%。
May, 2024
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的 15 个 LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如 System Star 优于 System Square。我们引入了 LLMs 作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量 LLM 评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现 LLMs 是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为 40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均 Rank-Biased Overlap(RBO)得分为 49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs 可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此 https URL。
Sep, 2023
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
大型语言模型偏差指数(LLMBI)通过量化和解决大型语言模型(如 GPT-4)中固有的偏见,为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI,通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统,系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应,应用先进的自然语言处理(NLP)技术进行偏见检测,并通过专门设计的数学公式计算 LLMBI 得分,该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行,在代表性的偏见检测方法中采用了先进的情感分析。研究发现,虽然 LLMs 在文本生成方面展示了令人印象深刻的能力,但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量,为系统工程师、研究人员和监管机构提供了重要工具,以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力,并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。
Dec, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。
Nov, 2023
本文为了解决公开领域语言模型中偏见检测的问题,就语境化语言模型偏见检测方法和静态单词嵌入偏见检测方法进行了严谨的分析和比较,发现了实现上的一些决策或错误对检测结果可能产生显著的影响,并提出了未来偏见检测方法更好、更健壮、更一致的方向。
Nov, 2022
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
通过评估不同方法对模型预测中的标签偏倚进行量化研究,我们提出了一种专门用于少样本提示的新型标签偏倚校准方法,其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。
May, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023