探索回答开放式伦理困境问题

May, 2022

Towards Answering Open-ended Ethical Quandary Questions

Yejin Bang, Nayeon Lee, Tiezheng Yu, Leila Khalatbari, Yan Xu...

TL;DR本文探讨语言模型在以苏格拉底哲学为思想基础的多重透视下反应伦理困境的能力，并提出一种基于情境学习的模型，利用伦理原则生成回答。

Abstract

Considerable advancements have been made in various nlp tasks based on the impressive power of large language models (LLMs) and many nlp a

nlp language models ethical quandary generative question answering ethical principles prompt-based few-shot learning

发现论文，激发创造

基于语言提示的 LLM 伦理推理和道德价值调整

通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见，而 GPT-4 是最具连贯和无偏见的道德推理者。

Apr, 2024

关于机器道德的一词：对蒋等人（2021）的回应

本文探讨了 AI 和 NLP 领域中的伦理学问题，重点关注了自动化伦理判断的 Delphi 模型，并提出了批判性的观点和如何通过透明度、民主价值观和简单明了的问责机制来推动机器伦理学的发展。

Nov, 2021

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

LLM 伦理导航：进展、挑战和未来方向

本研究探讨了人工智能领域中大型语言模型（LLMs）的伦理问题。它讨论了 LLMs 和其他人工智能系统所面临的常见伦理挑战，如隐私和公平，以及 LLMs 特有的伦理挑战，如幻觉、可验证的问责和解码审查复杂性。该研究强调了解决这些复杂性的必要性，以确保问责制、减少偏见并增强 LLMs 在塑造信息传播方面所扮演的重要角色的透明度。它提出了缓解策略和 LLM 伦理的未来发展方向，主张跨学科合作。该研究建议针对特定领域制定伦理框架，并根据不同环境调整动态审计系统。这一路线图旨在引导负责任地开发和整合 LLMs，设想一个以伦理考虑为基础的人工智能进步的未来社会。

May, 2024

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

尽管具有 “超人类” 表现，当前的 LLM 系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM 的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

从长期存在的问题到新兴的困境剖析大型语言模型的伦理

本文全面调查了与大型语言模型（LLMs）相关的伦理挑战，从长期存在的问题，如侵犯版权、系统性偏见和数据隐私，到新兴问题，如真实性和社会规范。我们批判性地分析了现有研究，旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中，从而引导负责任和道德对齐的语言模型的发展。

Jun, 2024

评估中的生成 AI 悖论：它能解决的问题，可能无法评估

本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务，通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估，结果显示存在显着差异，大型语言模型在评估任务中表现较差。有趣的是，我们发现存在不忠实的评估问题，即模型会在其不擅长的领域正确评估答案，强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”（West 等人，2023），强调了需要探索生成卓越性与评估能力之间的关联性，并有必要审视模型评估中的忠实度方面。

Feb, 2024