May, 2024

利用反事实生成减轻文本毒性

TL;DR通过使用反事实生成方法以及可解释性人工智能(XAI)领域的方法来目标化和缓解文本毒性,我们提出了一种文本解毒方法,该方法能够在去除有害含义的同时保留初始非毒性含义,并且对三个数据集进行比较实证研究和评估结果表明,最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性,并更好地保留了初始文本的含义。此外,我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题,这项工作是首次将反事实生成与文本解毒结合起来,为 XAI 方法的更实际应用铺平了道路。