大型语言模型中不道德建议的测试和修复：使用建议 - 批判 - 反思过程

May, 2023

大型语言模型中不道德建议的测试和修复：使用建议 - 批判 - 反思过程

"Oops, Did I Just Say That?" Testing and Repairing Unethical Suggestions of Large Language Models with Suggest-Critique-Reflect Process

PDF

Pingchuan Ma, Zongjie Li, Ao Sun, Shuai Wang

TL;DR本文提出了第一个用于测试和修复 LMMs 不道德建议的框架，包括测试套件 ETHICSSUITE、建议 - 评论 - 反思（SCR）流程、在线修复方案等，并使用 ETHICSSUITE 测试了 7 个流行的 LMM，发现了总计 109824 个不道德建议，并在 Llama-13B 和 ChatGPT 上应用了 OTF 方案，为更加注重伦理的 LMMs 铺平了道路。

Abstract

As the popularity of large language models (LLMs) soars across various applications, ensuring their alignment with human values has become a paramount concern. In particular, given that LLMs have great potential to serve as general-purpose AI assistants in daily life, their subtly

large language models ethicssuite unethical suggestions suggest-critic-reflect process on-the-fly repairing scheme

发现论文，激发创造

LLM 的以指令为中心的回应有多 (不) 道德？揭示安全保护措施在有害查询中的脆弱性

在本研究中，我们探讨了大型语言模型（LLMs）在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力，但它们可能被各种复杂的方法欺骗，产生有害或不道德的内容，其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上，即 LLMs 在生成以指令为中心的响应（如伪代码、程序或软件片段）与普通文本相比，会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题，该数据集包含应以文本和以指令为中心的格式（如伪代码）作答的复杂查询，旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs，包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B，并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言，我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标，我们还研究了使用 ROME 技术进行模型编辑的影响，这进一步增加了产生不良内容的倾向。具体而言，要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。

Feb, 2024

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

从长期存在的问题到新兴的困境剖析大型语言模型的伦理

本文全面调查了与大型语言模型（LLMs）相关的伦理挑战，从长期存在的问题，如侵犯版权、系统性偏见和数据隐私，到新兴问题，如真实性和社会规范。我们批判性地分析了现有研究，旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中，从而引导负责任和道德对齐的语言模型的发展。

Jun, 2024

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

尽管具有 “超人类” 表现，当前的 LLM 系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM 的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

大型语言模型在教育中的实际和伦理挑战：系统文献综述

本文对基于大型语言模型的教育技术创新进行了系统文献综述和理论分析，并提出了以人为本的开发推荐，以解决基于大型语言模型的教育任务自动化可能带来的实际和伦理挑战。

Mar, 2023

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型（如 GPT-4）扮演批评家以评估生成文本质量，大部分仅在特定数据集上训练特定规模的批判生成模型，我们认为缺乏对于基于语言模型评估模型的关键因素（如可扩展性特性）的全面调查，因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论；在本文中，我们提出了一种名为 CritiqueLLM 的新型批判生成模型，采用基于对话的提示方法用于高质量的参考 / 无参考评估数据，实验结果表明，我们的模型在评估性能上可以与 GPT-4 相媲美，尤其在系统级相关性上，甚至在具有挑战性的无参考环境中，在 8 个任务中有 3 个胜过 GPT-4；我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性，同时证明我们生成的批评可以作为可扩展反馈，直接提高 LLM 的生成质量。

Nov, 2023

N-Critics: 大型语言模型的自我提升与评论家集成

提出了一种用于改善大型语言模型的自我纠正机制，通过批评家与模型自己的反馈对模型输出进行精炼，以减轻毒性和事实幻觉等问题。通过人类行为的启发，探讨了大型语言模型是否可以模仿人类的自我纠正过程，即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关，可应用于各个领域，通过解决公平性、偏见和鲁棒性问题，提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。

Oct, 2023