评估 LLMs 在著名人士中的性别差异

Mar, 2024

评估 LLMs 在著名人士中的性别差异

Evaluating LLMs for Gender Disparities in Notable Persons

Lauren Rhue, Sofie Goethals, Arun Sundararajan

TL;DR该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Abstract

This study examines the use of large language models (LLMs) for retrieving factual information, addressing concerns over their propensity to produce factually incorrect "hallucinated" responses or to altogether d

large language models factual information gender-based biases gpt models gender disparities

发现论文，激发创造

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

多元而分裂：LLM 可能夸大与错误信息的危害相关的性别差异

使用大型语言模型（LLM）在事实检查过程中能够反映不同群体的观点，但增大了性别差异的程度，为解决社会中的误导性信息和在线交流提供了重要启示。

Jan, 2024

揭示法学硕士职业领域中的性别偏见：分析与解决社会学意义

该研究探讨了大型语言模型中的性别偏见问题，特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较，通过对生成的文本进行全面的文献综述和定量分析，发现了性别化词汇关联、语言使用和偏见叙述的问题，并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。

Jul, 2023

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

辩论评估中大型语言模型的实证分析

使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究，发现 LLMs 在评估上的表现超过人类，并超过基于大量数据集微调的最先进方法。同时，研究了 LLMs 中存在的偏见，包括位置偏见、词汇偏见和顺序偏见，这可能会影响它们的评价判断。我们的发现表明，无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见，这归因于提示设计。此外，在 GPT-3.5 和 GPT-4 中也存在词汇偏见，特别是当含义具有数字或顺序的标签集时，强调在提示设计中需谨慎选择标签的表述。此外，我们的分析表明，这两个模型倾向于认为辩论的结束方是获胜方，暗示存在讨论末尾的偏见。

May, 2024

大型语言模型（LLM）的利用中的挑战和影响因素

当面临领域特定问题时，大语言模型（LLMs）可能会遇到问题，如知识遗忘、知识重复、知识幻觉以及知识毒性，这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题，建议对训练数据进行多样化，微调模型，提高透明度和可解释性，并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是，未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理，确保它们持有高的道义和道德标准。

Oct, 2023

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

全球撒谎者：LLMs 随时间和地域的真实性

研究评估 GPT 模型的事实准确性、稳定性和偏见，发现较新版本的 GPT 模型并不总是具有更好的性能，存在地域偏见及信息不对称问题，强调了在模型训练和评估中的文化多样性和地理包容性的重要性，以实现全球科技公平和公正分配人工智能的好处。

Jan, 2024