每种语言都重要：多语言 LLMs 的学习和遗忘

Jun, 2024

每种语言都重要：多语言 LLMs 的学习和遗忘

Every Language Counts: Learn and Unlearn in Multilingual LLMs

Taiming Lu, Philipp Koehn

TL;DR研究探究了有害信息在多语种大型语言模型中的传播，并评估了各种反学习方法的有效性。我们证明了无论以哪种语言出现，一旦通过训练数据引入虚假信息到这些模型中，它可以在不同语言之间传播，从而损害生成内容的完整性和可靠性。我们的发现揭示了标准反学习技术通常只关注英文数据，无法有效减轻多语种环境中有害内容的传播，并可能无意中在各种语言之间加强有害内容。我们展示了只有同时解决有害数据的英文和原始语言中的有害回应，我们才能有效地消除所有语言的生成。这强调了考虑现代多语种大型语言模型的多语言特性来增强其安全性和可靠性的全面反学习策略的重要性。

Abstract

This paper investigates the propagation of harmful information in multilingual large language models (LLMs) and evaluates the efficacy of various

harmful information multilingual large language models unlearning methods spread of harmful content comprehensive unlearning strategies

发现论文，激发创造

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024

多语言语言模型中选择性知识的跨语言遗忘

本研究论文提出了一种创新的方法，针对多语言语言模型的机器遗忘，通过选择性地擦除不同语言中的信息，同时保持总体性能，有效解决了低资源语言攻击的问题，为安全可适应的多语言语言模型设定了新的标准。

Jun, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用 2％的计算时间时实现更好的对齐性能比 RLHF。

Oct, 2023

LLM 知识弃除：任务、方法与挑战

近年来，大型语言模型（LLM）在自然语言处理领域引起了一种新的研究范式。然而，这些模型保留错误或甚至有害知识的潜力带来了恶意应用的风险。为了使这些模型能够广泛应用，解决这个问题并将其转化为纯粹的助手是至关重要的。为此，我们提供了一份关于 LLM 时代的知识遗忘的综述。我们从正式定义知识遗忘问题并与相关工作区分开始。随后，我们将现有的知识遗忘方法分为三类：基于参数优化、参数合并和上下文学习的方法，并介绍这些方法的细节。我们还介绍了现有方法中使用的评估数据集，并最后总结了这份综述中存在的挑战和未来的方向。

Nov, 2023

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

大型语言模型是否能理解内容和传播路径以检测虚假信息：一个实证研究

大型语言模型在虚假信息检测任务中的性能研究显示，多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能，突出了大型语言模型检测虚假信息的潜在能力。

Nov, 2023

传统模型与大型语言模型的机器遗忘：简要调查

通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的重要性，以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念，还指出了其突出问题和未来研究的可行方向，为该领域的学者提供了有价值的指导。

Apr, 2024

大型语言模型对误导性污染的风险

本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

May, 2023