harmful information | BriefGPT

关键词harmful information

搜索结果 - 4

每种语言都重要：多语言 LLMs 的学习和遗忘
研究探究了有害信息在多语种大型语言模型中的传播，并评估了各种反学习方法的有效性。我们证明了无论以哪种语言出现，一旦通过训练数据引入虚假信息到这些模型中，它可以在不同语言之间传播，从而损害生成内容的完整性和可靠性。我们的发现揭示了标准反学习技
PDF17 days ago
消除否定性：通过分布偏好优化实现无需人工正例样本的对齐
通过利用人工标注的负样本，提出了一种基于分布差异优化的方法来使大型语言模型朝向人类偏好对齐，以减少有害信息的生成。实验证明该方法在生成质量、有害信息数量和训练稳定性方面均优于最新基线模型。
PDF4 months ago
跳出规则：多轮对话中大型语言模型的安全漏洞
人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。
PDF4 months ago
通过选择性突触减衰实现快速机器反学习而无需重新训练
机器遗忘能力对于遵守数据隐私法规以及删除有害、被操控或过时信息变得越来越重要。本研究提出了一种名为选择性突触阻尼（SSD）的新型机器遗忘方法，该方法以快速、高性能的方式进行遗忘，且不需要长期存储训练数据。该方法在一系列实验中与现有的遗忘方法
PDFa year ago