探索回答开放式伦理困境问题
通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法,本研究探讨了道德判断是否取决于提示的语言,并发现在其他语言中,ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见,而 GPT-4 是最具连贯和无偏见的道德推理者。
Apr, 2024
本文探讨了 AI 和 NLP 领域中的伦理学问题,重点关注了自动化伦理判断的 Delphi 模型,并提出了批判性的观点和如何通过透明度、民主价值观和简单明了的问责机制来推动机器伦理学的发展。
Nov, 2021
这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题,旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现,在处理无法回答问题的同时,通过针对训练数据中缺失信息设计的对抗性问答基准测试,经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外,通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此,我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。
Nov, 2023
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了 Llama 2 外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
本研究探讨了人工智能领域中大型语言模型(LLMs)的伦理问题。它讨论了 LLMs 和其他人工智能系统所面临的常见伦理挑战,如隐私和公平,以及 LLMs 特有的伦理挑战,如幻觉、可验证的问责和解码审查复杂性。该研究强调了解决这些复杂性的必要性,以确保问责制、减少偏见并增强 LLMs 在塑造信息传播方面所扮演的重要角色的透明度。它提出了缓解策略和 LLM 伦理的未来发展方向,主张跨学科合作。该研究建议针对特定领域制定伦理框架,并根据不同环境调整动态审计系统。这一路线图旨在引导负责任地开发和整合 LLMs,设想一个以伦理考虑为基础的人工智能进步的未来社会。
May, 2024
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
提出了一个灵活的框架,利用跨学科研究中建立的道德理论,引导大型语言模型进行道德推理,证明了该框架在从道德理论中衍生的数据集上的有效性,展示了不同道德理论与现有道德数据集之间的一致性,并展示了开发可解释的道德判断系统中现有资源(模型和数据集)的潜力和缺陷。
Aug, 2023
提出了一种新的提示策略,其中包括要求大语言模型解释其推理过程,但结果表明,LLM 的误差与人类的误差存在系统性差异,这使得制作对抗性示例变得相对容易,表示人类表现并不一定意味着人类理解或推理能力。
Dec, 2022
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024
本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务,通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估,结果显示存在显着差异,大型语言模型在评估任务中表现较差。有趣的是,我们发现存在不忠实的评估问题,即模型会在其不擅长的领域正确评估答案,强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”(West 等人,2023),强调了需要探索生成卓越性与评估能力之间的关联性,并有必要审视模型评估中的忠实度方面。
Feb, 2024