GPT-DETOX: 文本解毒的上下文学习重述器
本文提出了两种新颖的无监督方法来消除文本中的有害信息,第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法,第二种方法利用BERT将有害词汇替换为它们的无冒犯同义词,并进行了大规模比较研究,证明这两种方法有效且是新的最佳解决方案。
Sep, 2021
介绍了 MaRCo 算法,该算法采用Product of Experts和自编码语言模型相结合的方式,通过在非有毒和有毒语言模型下评估可能要屏蔽和替换的候选单词,能够有效地解决细微的毒性挑战,即使在人类评估中也要比基线方法更受欢迎,证明了其在解决日益逃避的网络仇恨问题上具有广泛的应用前景。
Dec, 2022
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023
Detoxification Generator (DETOXIGEN) is an algorithm that controls the attributes of generated text, particularly avoiding toxicity, by using an ensemble of a pre-trained language model and a detoxifier trained on toxic data.
Jan, 2024
本文研究了文本排毒的任务,即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法,我们有效地平衡了文本排毒,同时保留了原始内容和流畅性,并使用提供的数据集进行实验和评估。
Feb, 2024
我们提出了GreenLLaMA,这是第一个全面的端到端解毒框架,通过实验分析我们展示了我们的跨平台语料库的有效性和GreenLLaMA对抗敌对有毒性的鲁棒性。
Feb, 2024
文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将ParaDetox管道扩展到多种语言,提出MultiParaDetox以自动收集潜在任何语言的平行排毒语料库,并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。
Apr, 2024
本文针对文本解毒化的挑战,提出了一种新的fine-tuning方法,该方法仅利用非并行数据,将大型语言模型转变为解毒化重写器。通过Stackelberg响应优化(SRO),该方法使LLM在漏掉的偏好的情况下,依然能够从毒性筛查器的反馈中学习,从而在解毒表现上超越其他计算方法,并与人类参考匹配。
Oct, 2024