跨文化对齐是否改变语言模型的常识道德？

ACLJun, 2024

跨文化对齐是否改变语言模型的常识道德？

Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models?

PDF

Yuu Jinnai

TL;DR用英文資源對日本語言模型進行對齊，並評估結果微調模型的通俗道德是否與日本文化保持一致，結果顯示，通俗道德的某些方面是可遷移的，但其他方面則不一定。

Abstract

alignment of the language model with human preferences is a common approach to making a →

alignment language model human preferences multilingual commonsense morality

发现论文，激发创造

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Oct, 2023

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022

大型语言模型对文化及道德规范的了解

通过对 PEW 全球调查和世界价值观调查的分析，我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度（例如 “同性恋” 和 “离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Jun, 2023

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

多语言语言模型是否捕捉到不同的道德规范？

该论文旨在检测和量化高资源语言对低资源语言影响的问题，并寻求方法来提高跨语言模型转移的可靠性。作者使用跨语言模型 XLM-R 并发现，跨语言语言模型的确能够捕捉道德规范，但还不清楚这些规范在不同语言之间的差异程度。

Mar, 2022

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

诚实对齐

应用对齐技术以增强大型语言模型（LLMs）的有益性和无害性，保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义，以及定义了《论语》所启发的 “诚实” 的基石，解决了识别 LLM 知识限度的挑战，并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术，通过提出的度量方法，证明这些对齐模型在诚实性方面有显著提高。

Dec, 2023

拒绝的原因？将语言模型与判断对齐

我们首次通过自然语言反馈的方法探索了对齐大型语言模型的可能性，并提出了一种称为 Contrastive Unlikelihood Training (CUT) 的新框架，通过细致判定检测和修正来实现对不适当内容的改进，获得了优于基线模型的好成绩。同时，我们的分析表明判定相较于奖励在 LLM 对齐方面具有更大的潜力，值得进行进一步研究。

Dec, 2023

超越英语的常识：评估和改进多语言常识推理语言模型

为了促进通识推理（CSR）的进一步发展，作者提出了用于评估和改进流行的多语言语言模型（ML-LMs）的方法，其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练（MCP）的有效性。作者还创建了两个新数据集，X-CSQA 和 X-CODAH，以评估流行的 ML-LMs 用于跨语言通识推理的能力。

Jun, 2021

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024