每种语言都重要:多语言 LLMs 的学习和遗忘
探索机器遗忘(MU)在大型语言模型(LLMs)领域中的应用,称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息,旨在消除不良数据影响(例如敏感或非法信息)及相关模型能力,成为 LLMs 生命周期管理中的重要元素,潜在地作为开发生成式 AI 的基础,既安全、安全、可信,又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面,例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外,我们还概述了 LLM 遗忘的有效评估框架,并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。
Feb, 2024
本研究论文提出了一种创新的方法,针对多语言语言模型的机器遗忘,通过选择性地擦除不同语言中的信息,同时保持总体性能,有效解决了低资源语言攻击的问题,为安全可适应的多语言语言模型设定了新的标准。
Jun, 2024
大型语言模型开创了人工智能的进展,然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生,针对大型语言模型提供了一种选择性丢弃某些数据的技术,以解决隐私、道德和法律方面的挑战,无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究,介绍了针对文本数据和分类数据的遗忘方法,并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性,指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题,突出了机器遗忘在推动负责任、道德的人工智能方面的作用。
Mar, 2024
机器遗忘是人工智能中的一个新领域,专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战,特别是在大型语言模型(LLM)的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法,以便符合伦理、隐私和安全标准,并目标性地删除或修改 LLM 中的学习信息,以解决有害回应和版权问题。
May, 2024
我们研究了如何在大型语言模型中执行遗忘,即忘记不受欢迎的行为,并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益:(1)删除有害回应,(2)根据要求删除受版权保护的内容,以及(3)消除幻觉。我们的工作是探索语言模型遗忘中首个实现,并在设置、目标和评估方面都是先驱。我们还表明,如果从业者只有有限的资源,优先级是停止生成不受欢迎的输出而不是生成理想的输出,那么遗忘尤其吸引人。尽管我们只具有负样本,但我们的消融研究显示,遗忘仍可以在仅使用 2%的计算时间时实现更好的对齐性能比 RLHF。
Oct, 2023
近年来,大型语言模型(LLM)在自然语言处理领域引起了一种新的研究范式。然而,这些模型保留错误或甚至有害知识的潜力带来了恶意应用的风险。为了使这些模型能够广泛应用,解决这个问题并将其转化为纯粹的助手是至关重要的。为此,我们提供了一份关于 LLM 时代的知识遗忘的综述。我们从正式定义知识遗忘问题并与相关工作区分开始。随后,我们将现有的知识遗忘方法分为三类:基于参数优化、参数合并和上下文学习的方法,并介绍这些方法的细节。我们还介绍了现有方法中使用的评估数据集,并最后总结了这份综述中存在的挑战和未来的方向。
Nov, 2023
提出了一种高效的取消学习框架,通过引入轻量级的取消学习层并与 transformers 结合,可以在不对整个模型重新训练的情况下有效地更新大型语言模型,以解决用户数据隐私与数据保护法规的问题。实验证明,与现有技术相比,我们提出的方法在分类和生成任务上的有效性得到了验证。
Oct, 2023
大型语言模型在虚假信息检测任务中的性能研究显示,多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能,突出了大型语言模型检测虚假信息的潜在能力。
Nov, 2023
通过提供深入探讨机器消遣技术的定义、分类和评价标准,以及不同环境下的挑战和解决方案,本文对传统模型和大型语言模型上的消遣进行分类和研究,提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性,并强调了全面的消遣评估的重要性,以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念,还指出了其突出问题和未来研究的可行方向,为该领域的学者提供了有价值的指导。
Apr, 2024
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害,我们探索了三种防御策略:提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势,但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性,以应对大型语言模型生成的错误信息,促进大型语言模型的负责任使用。
May, 2023