使用大型多语言模型探索跨语言文本风格转移
本文提出了两种新颖的无监督方法来消除文本中的有害信息,第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法,第二种方法利用BERT将有害词汇替换为它们的无冒犯同义词,并进行了大规模比较研究,证明这两种方法有效且是新的最佳解决方案。
Sep, 2021
本文使用文本编辑的概念,利用俄语平行语料库,构建两步标记为基础的脱毒模型,实现了最佳的样式转移准确性,并且超过了更大的序列到序列模型。
Apr, 2022
本文提出了一种轻量级方法,通过在预训练语言模型中添加负向指令来诱导模型生成无害内容,同时利用注意力层中的信息传递方式来逆转生成过程中的有害方向,实现语言模型自我脱毒。实验结果表明,我们的方法无需微调或额外组件,可达到与最先进方法相当的性能。
Oct, 2023
文本去毒化是将文本风格从有毒转化为中性的任务,在单语环境下已有取得良好结果的方法,但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务,即同时进行文本翻译和去毒化,为该任务提供了几个强基线方法。此外,引入了与人类判断更高相关性的新自动去毒化评估指标,通过人工标记和评估最有希望的方法,确定了文本去毒化知识转移的最佳策略。
Nov, 2023
本文研究了文本排毒的任务,即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法,我们有效地平衡了文本排毒,同时保留了原始内容和流畅性,并使用提供的数据集进行实验和评估。
Feb, 2024
文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将ParaDetox管道扩展到多种语言,提出MultiParaDetox以自动收集潜在任何语言的平行排毒语料库,并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。
Apr, 2024
我们分析了大型语言模型(LLMs)在文本样式转换(TST)上的性能,特别关注情感转移和文本解毒,在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调,评估了预训练LLMs的能力,使用自动度量、GPT-4和人工评估。我们的评估结果显示,虽然一些受提醒的LLMs在英语上表现良好,但它们在其他语言(印地语、孟加拉语)上的表现平均。然而,微调与零样本和少样本提示相比显著改善了结果,使它们与之前的最先进水平相媲美。这突显出有效的TST需要专门的数据集和专用模型的必要性。
Jun, 2024
通过对多语言大型语言模型进行解毒已经变得至关重要。本研究探讨了解毒语言模型中无监督跨语言泛化的偏好调整。通过仅使用英文数据进行直接优化训练,能够显著降低多语言开放生成中的有害信息。通过一系列实验证明,在训练后,mGPT-1.3B生成有害连续内容的概率从46.8%降低到了3.9%,涵盖了17种不同的语言。我们的结果也适用于其他多语言大型语言模型,如BLOOM、Llama3和Aya-23。通过因果干预和激活分析等机械性可解释性工具,我们发现了多语言感知层在多语言大型语言模型中的双重特性,这解释了直接优化训练的跨语言泛化。最后,我们展示了双语句子检索可以预测DPO偏好调整的跨语言可迁移性。
Jun, 2024