使分类器能够明确地与人类价值观保持一致

Oct, 2022

使分类器能够明确地与人类价值观保持一致

Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values

Yejin Bang, Tiezheng Yu, Andrea Madotto, Zhaojiang Lin, Mona Diab...

TL;DR该研究介绍了一个基于明确人类价值观的价值对齐分类框架，并从大规模语言模型中提炼价值对齐知识以构建分类器，结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。

Abstract

Many nlp classification tasks, such as sexism/racism detection or toxicity detection, are based on human values. Yet, human values can var

value-aligned classification human values nlp large-scale language models inclusivity

发现论文，激发创造

自然发生故事原则预测的机器学习方法

本文探讨了利用机器学习模型对故事数据进行规范原则预测的任务，研究表明，单独的原则可以被分类，但 ' 道德准则 ' 的不确定性对于人类和自主系统来说都是一个挑战。

Nov, 2022

你最优化的是什么？将推荐系统与人类价值观对齐

通过修改实际推荐系统，实现多样化、公正、幸福、时间管理和事实准确度等各种人类价值；通过人工创建数据进行分类，解决一系列相关问题，但用户与其他利益相关者的参与度不高。相反，通过人工智能技术，从利益相关方进行值观的学习，识别四个主要措施：协作设计与操作、交互式价值学习和知情的审议性判断。

Jul, 2021

人类价值是什么，我们如何使人工智能与之相吻合？

通过道德图表法，本文研究如何合成不同的人类价值观输入，以对齐语言模型的行为，并通过在 500 名代表性美国人身上试验证明了其有效性。

Mar, 2024

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

大型语言模型的异构价值评估

本研究提出了 A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

评估基于大语言模型的道德价值多元论

利用一个名为识别价值共鸣（RVR）的 NLP 模型，将 WVS 调查的价值观与生成的 LLMs 文本进行比较，发现 LLMs 显示出西方中心主义的价值偏见，高估了非西方国家的保守性，对非西方国家的性别表达不准确，并将年长人口描绘为更具传统价值。

Dec, 2023

评估和改进 AI 中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

AI 产出如何产生更好的结果，社会如何将其描绘，以及在冲突价值情境中作出决策模型的研究与应用。

Oct, 2023

自然语言处理中的人类辅助公正分类

本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法，以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对，并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。

Dec, 2022

衡量价值对齐

本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性，使用马尔可夫决策过程作为基础模型，强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系，为评估规范与价值观之间一致程度提供了一种机制，以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法，AI 开发者和伦理学家可以更好地设计和评估 AI 系统，以确保其与人类价值观和谐共处，该方法还适用于许多应用领域，例如强调幸福的推荐系统和强调安全的自动驾驶车辆。

Dec, 2023