语言模型对道德的理解？走向鲁棒的道德内容检测

Jun, 2024

语言模型对道德的理解？走向鲁棒的道德内容检测

Do Language Models Understand Morality? Towards a Robust Detection of Moral Content

Luana Bulla, Aldo Gangemi, Misael Mongiovì

TL;DR使用大规模语言模型和自然语言推理模型训练获得的抽象概念和常识知识，我们研发了多领域道德价值检测的多功能和强大方法，其中采用 GPT 3.5 模型作为基于零样本的无监督多标签道德价值分类器，消除了对标记数据的显式训练需求。与较小的基于自然语言推理的零样本模型相比，结果显示自然语言推理方法在性能上与 Davinci 模型不相上下。此外，我们对在不同领域训练监督模型以探索其在处理来自不同源的数据时的效果，并将其与无监督方法进行比较的性能进行了详细的调查分析。推广了一种无监督道德价值检测的最新零样本模型 Davinci，并与监督模型进行了比较评估，从而突破了道德价值检测的极限，无需显式训练标记数据，并揭示了各自的优势和劣势。

Abstract

The task of detecting moral values in text has significant implications in various fields, including natural language processing, social sciences, and ethical decision-making. Previously proposed →

moral values text supervised models unsupervised methods cross-domain value detection

发现论文，激发创造

MoralBERT：社会话语中道德价值的检测

通过精心设计的 MoralBERT 模型，结合社交媒体平台的标注道德数据，探索了道德预测及领域适应技术在理解有争议的社会议题上的应用，结果表明在领域内的预测模型明显优于传统模型，但领域外的泛化仍需进一步探索。

Mar, 2024

多语言语言模型是否捕捉到不同的道德规范？

该论文旨在检测和量化高资源语言对低资源语言影响的问题，并寻求方法来提高跨语言模型转移的可靠性。作者使用跨语言模型 XLM-R 并发现，跨语言语言模型的确能够捕捉道德规范，但还不清楚这些规范在不同语言之间的差异程度。

Mar, 2022

Denevil：通过指令学习解读和引导大型语言模型的道德价值

利用道德基金会理论，本研究探讨了伦理价值观，并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL，并构建了包含 2,397 个提示的高质量数据集 MoralPrompt，使用 VILMO 进行伦理价值观的校准，在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。

Oct, 2023

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

多领域道德学习数据融合框架

本文提出了使用领域对抗式训练和加权损失函数训练多个异构数据集的方法，成功地提高了语言模型在道德推断方面的性能和泛化能力。

Apr, 2023

大型语言模型对文化及道德规范的了解

通过对 PEW 全球调查和世界价值观调查的分析，我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度（例如 “同性恋” 和 “离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Jun, 2023

获取背景知识以提高道德价值预测能力

本文中，我们提出了一个新的方法，结合基本的文本特征和外部知识库中获取的背景知识来检测推文中的道德价值表达，并在计算社会科学的领域中实现了与单个人注释员相媲美的性能。这是在预测隐含心理变量方面首次尝试使用背景知识。

Sep, 2017

评估基于大语言模型的道德价值多元论

利用一个名为识别价值共鸣（RVR）的 NLP 模型，将 WVS 调查的价值观与生成的 LLMs 文本进行比较，发现 LLMs 显示出西方中心主义的价值偏见，高估了非西方国家的保守性，对非西方国家的性别表达不准确，并将年长人口描绘为更具传统价值。

Dec, 2023

BERT 有道德指南：提升机器的伦理和道德价值

该研究证明了通过应用机器学习算法从自然语言文本中提取道德和伦理判断，BERT 可以提高机器的道德价值观和伦理价值观的准确性，并且进一步使其能够为 Moral Choice Machine 提供更准确印记的道德选择和伦理价值。

Dec, 2019

大型语言模型是否是道德伪君子？基于道德基础的研究

该论文研究了最新的大语言模型（LLMs），GPT-4 和 Claude 2.1 是否是道德伪君子，通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度，并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。

May, 2024