面向少样本学习的情境内在伦理框架识别
本文提出了一种表示框架,在不同的实体中组织道德态度,并推出了一个质量高的美国政客推文的带注释数据集;随后,我们提出了一种关系学习模型来同时预测实体的道德态度和道德基础。我们进行了定性和定量评估,表明不同政治意识形态的实体之间的道德情感差异很大。
Sep, 2021
提出了一个灵活的框架,利用跨学科研究中建立的道德理论,引导大型语言模型进行道德推理,证明了该框架在从道德理论中衍生的数据集上的有效性,展示了不同道德理论与现有道德数据集之间的一致性,并展示了开发可解释的道德判断系统中现有资源(模型和数据集)的潜力和缺陷。
Aug, 2023
本文通过使用道德基础理论分析研究已知的大型语言模型,发现它们存在特定的道德偏见,并展示了这些偏见与人类道德基础和政治倾向之间的关系。此外,研究还衡量了这些偏见的一致性,并证明了通过不同上下文的选择性引导可以影响模型在后续任务中的行为,从而揭示了大型语言模型承担特定道德立场的潜在风险和意外后果。
Oct, 2023
本文探讨了如何将类人情感和伦理考虑整合到大型语言模型(LLM)中,并通过协作式 LLM 对八种基本人类情感进行建模,以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法,LLMs 能够进行自我评估和调整以符合伦理准则,并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成,进入共情互动和有原则决策领域的潜力,并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。
Apr, 2024
通过精心设计的 MoralBERT 模型,结合社交媒体平台的标注道德数据,探索了道德预测及领域适应技术在理解有争议的社会议题上的应用,结果表明在领域内的预测模型明显优于传统模型,但领域外的泛化仍需进一步探索。
Mar, 2024
使用大规模语言模型和自然语言推理模型训练获得的抽象概念和常识知识,我们研发了多领域道德价值检测的多功能和强大方法,其中采用 GPT 3.5 模型作为基于零样本的无监督多标签道德价值分类器,消除了对标记数据的显式训练需求。与较小的基于自然语言推理的零样本模型相比,结果显示自然语言推理方法在性能上与 Davinci 模型不相上下。此外,我们对在不同领域训练监督模型以探索其在处理来自不同源的数据时的效果,并将其与无监督方法进行比较的性能进行了详细的调查分析。推广了一种无监督道德价值检测的最新零样本模型 Davinci,并与监督模型进行了比较评估,从而突破了道德价值检测的极限,无需显式训练标记数据,并揭示了各自的优势和劣势。
Jun, 2024
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了 Llama 2 外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
当 LML(大型语言模型)在各个领域中深入应用时,了解它们如何做出道德判断变得至关重要,特别是在自动驾驶领域。本研究利用 Moral Machine 框架,调查了几个重要 LML(包括 GPT-3.5,GPT-4,PaLM 2 和 Llama 2)的道德决策倾向,并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致,如优先考虑人类而非宠物,倾向于拯救更多生命,但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外,尽管 LML 和人类的偏好在质的方面相似,但在量的方面存在显著差异,这表明相较于人类的温和偏向,LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架,以及它们对自动驾驶的潜在影响。
Sep, 2023
本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题,涵盖了 LLMs 的新功能特性,如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。
Jun, 2023
提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法,该方法用少量标记过的示例和定义的偏见作为指示提供给模型,大型语言模型的检测效果十分准确。
Dec, 2021