Dec, 2022

MaRCo:用专家和反专家进行可控修订的文本去毒化工具

TL;DR介绍了 MaRCo 算法,该算法采用 Product of Experts 和自编码语言模型相结合的方式,通过在非有毒和有毒语言模型下评估可能要屏蔽和替换的候选单词,能够有效地解决细微的毒性挑战,即使在人类评估中也要比基线方法更受欢迎,证明了其在解决日益逃避的网络仇恨问题上具有广泛的应用前景。