幸存的男孩：从 LLM 中删除哈利・波特比报道中更为困难

MMMar, 2024

幸存的男孩：从 LLM 中删除哈利・波特比报道中更为困难

The Boy Who Survived: Removing Harry Potter from an LLM is harder than reported

Adam Shostack

TL;DR近期的研究发现模型生成和回忆与哈利波特相关的内容，包括特定提及哈利波特和使用的模型。

Abstract

Recent work arXiv.2310.02238 asserted that "we effectively erase the model's ability to generate or recall harry potter-related

harry potter model generation recall content

发现论文，激发创造

谁是哈利・波特？在 LLMs 中的近似遗忘

我们提出了一种新的技术来从 LLM 中遗忘训练数据的子集，而无需重新训练它，该技术在 Harry Potter 相关内容的生成或召回方面具有有效的能力。这是首篇呈现生成式语言模型中遗忘有效技术的论文。

Oct, 2023

评估 LLMs 中强化遗忘的八种方法

通过综合测试现有评估方法，我们对 Eldan and Russinovich（2023）的 “Who's Harry Potter” 模型进行了严格评估，发现它在 “熟悉度” 度量下表现良好，可靠地提取大量超越基准的知识，并与原始模型在 Harry Potter 问答任务和潜在知识表示等方面具有可比性，同时存在相关领域的副作用遗忘，结果强调了全面的遗忘评估的重要性，避免使用临时指标。

Feb, 2024

关于儿童故事的自动生成与简化

最近，关于利用大型语言模型 (LLM) 自动生成儿童教育材料的概念变得越来越现实。本研究先考察了几种流行的 LLM 的能力，以生成词汇和可读性适合儿童的故事。然后，通过开发一个基于儿童故事领域的数据集，研究了最先进的词汇简化模型在儿童故事材料上的适用性，并通过适当的微调使其性能得以提升。

Oct, 2023

Eraser: 大语言模型中逆向防御通过遗忘有害知识

本文介绍了一种名为 Eraser 的新型防御方法，它能够有效减少各种攻击对模型的越狱成功率，而不影响模型的一般能力。

Apr, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

逆转诅咒：基于 “A 是 B” 训练的 LLMs 无法学习到 “B 是 A

该研究揭示了自回归大型语言模型（LLM）中的泛化失败现象，即逆转诅咒，导致逻辑推断的基本失败。通过证据和评估表明 Reversal Curse 在不同模型大小和家族中都是普遍存在的。

Sep, 2023

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

训练语言模型以模仿学生误解的回归副作用

对于使用大型语言模型（LLM）模仿学生误解以进行个性化教育，本研究探讨了其退化副作用。我们发现，随着 LLM 被训练得更准确地模仿学生误解，模型的事实真实性和推理能力会受到妥协。为了解决这些副作用，我们引入了一种 “幻觉标记” 技术，并发现在多个基准数据集上效果显著提升，但仍需要进一步研究保持 LLM 在个性化教育和事实准确性之间的平衡。

Apr, 2024

能否通过虚构模型减少人类的 “幻觉”？

利用心理测量评估，本研究探讨了大型语言模型（LLMs）在检测常见逻辑陷阱方面与普通人的能力。通过对人类理性与 LLMs 的对比，提出了利用 LLMs 来对抗误解的方法，结合认知失调理论和详细性可能性理论等心理学模型。通过这一努力，凸显了 LLMs 作为个性化反驳错误信息代理的潜力。

May, 2024

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用 2％的计算时间时实现更好的对齐性能比 RLHF。

Oct, 2023