社会意识语言技术的呼声

May, 2024

The Call for Socially Aware Language Technologies

Diyi Yang, Dirk Hovy, David Jurgens, Barbara Plank

TL;DR语言技术在大语言模型的引入下取得了巨大进展，但在社交环境感知方面仍存在挑战，需要将社交意识融入自然语言处理模型以增强应用的自然性和安全性。

Abstract

language technologies have made enormous progress, especially with the introduction of large language models (LLMs). On traditional tasks such as machine translation and sentiment analysis, these models perform a

language technologies large language models social awareness nlp challenges

发现论文，激发创造

我思故我在：大型语言模型中的意识

大型语言模型是否具有类似于人类的任何形式的知觉？本文介绍了将知觉概念引入到大型语言模型中，认为知觉是增强大型语言模型与人类互动并确保其道德回应的重要方面。我们定义大型语言模型的知觉为其作为 AI 模型感知和理解自己，以及展现社交智能的能力。我们确定了四个关键方面的知觉：能力，使命，情感和视角。为了评估大型语言模型在这些方面的表现，我们引入了一个专门的数据集，即 AwareLLM 数据集。我们的研究结果表明，大型语言模型展现了一定程度的知觉，尽管它们仍然缺乏实质性的能力知觉。

Jan, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

自然语言处理中偏差和公平性调查

本次调查分析了 NLP 模型的社会影响，探讨了 NLP 算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了 NLP 各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除 NLP 算法中的有害偏见。

Mar, 2022

大型人工语言模型：需求与挑战

人类中心的自然语言处理，大型人类语言模型（LHLMs），人类背景和动态人类背景的关键设计考虑和挑战。

Nov, 2023

自然语言处理模型中的社会偏见作为残疾人的障碍

本文针对自然语言处理技术中社会态度的反映及其中的社会偏见问题展开研究，以两个不同实验为案例，说明训练数据本身的社会偏见对模型的影响。同时，讨论了关于残疾人的话题以及在相关文本中存在的不利偏见，并展示了大量相关证据。

May, 2020

写作辅助应建模语言的社会因素

本文通过分析针对信息内容而忽略其社会方面的单一视角，提出智能写作助手需要融入社会因素来建立更有效、更个性化的写作助手，以提高用户体验和促进用户的广泛采用。

Mar, 2023

语言 (技术) 即权力：自然语言处理中 “偏见” 的关键调查

对 146 篇分析自然语言处理系统中 “偏见” 的论文进行调查，发现大部分这些论文的动机模糊、不一致且缺少规范性推理，同时发现这些论文提出的量化技术与动机不符，并未接触自然语言以外的相关文献。基于这些发现，为分析自然语言处理系统中的 “偏见” 工作提出了三个建议。这些建议包括更加认识语言与社会等级之间的关系，鼓励研究人员和实践者表达对 “偏见” 的概念化，即什么样的系统行为对谁有害，以及为什么，同时也要关注受自然语言处理系统影响的社区成员的生活经验，质疑和重新构想技术人员与这样的社区之间的权力关系。

May, 2020

NLP 的表现如何？透过社会影响的视角对 NLP 任务进行审慎观察

运用道德哲学和全球优先事项研究的理论，我们旨在促进自然语言处理技术的社会价值，并通过提出 NLP 任务的直接和间接实际影响的评估框架和优先原因的方法论，为 NLP 技术的社会价值奠定基础，提出了未来 NLP 研究的实际指南。

Jun, 2021

全球语言技术表现中的系统性不平等

本论文介绍了一种估算全球语言技术的实用性的框架，并量化了 NLP 研究现状中存在的差异性，探讨了其相关的社会和学术因素，并为基于证据的政策制定提出了定制的建议，旨在促进更全球和公平的语言技术。

Oct, 2021

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023