语言生成中的社会偏见:进展与挑战
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之间相等。该方法被证明在减轻偏见过程中是有效的。
May, 2020
该研究介绍了一个大规模数据集以及一个新的自动化度量方法,用于研究和评测深度学习技术所生成的自由文本中存在的社会偏见,并发现机器生成的大部分文本在五个领域中表现出比人类撰写的维基百科文本更大的社会偏见。
Jan, 2021
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本文分析了影响社会偏见结果的文本补全的具体选择、度量、自动工具和抽样策略,发现在不同的实验设置下,测量偏见的实践很容易产生相互矛盾的结果,并提供了有关开放式语言生成中报告偏见的建议,从而更完整地展示给定语言模型所展示的偏见。
May, 2022
研究分析了解码算法对语言模型生成文本公平性的影响,发现更多样化的文本输出更容易含有负面情感和态度,提供了如何优化解码算法以获得公平性、质量和多样性的推荐和标准化报告。
Oct, 2022
本文探讨大规模语言模型(如ChatGPT)中固有偏见的挑战和风险,讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见,强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。
Apr, 2023
探讨生成式语言模型在数字应用中的广泛使用可能会不经意地引发自我加强学习循环,从而放大现有的语言偏见,这可能会影响未来几代人的语言和认知发展,并强调有必要进行严格的研究,以确保这些强大技术的有效、安全和公平使用,同时保持人类语言的丰富性和多样性。
Jun, 2023
通过本文的研究表明,AI技术的推广仍存在技术语言偏见的问题,这导致一些系统无法正确地表达来自其他社区的概念,从而忽视多样性和边缘化语言社群的需求和世界观。
Jul, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023